O módulo HarpIA Survey é dedicado ao suporte de avaliações que são executadas por humanos. Neste módulo, a partir de um grande modelo de linguagem ativo e um avaliador humano, é possível implementar um fluxo de trabalho de avaliação que engloba:
- a criação de uma equipe de avaliação, composta por um ou mais avaliadores humanos;
- a elaboração de tarefas de avaliação, incluindo a elaboração de uma estratégia de engenharia de prompt que determina o comportamento geral do grande modelo de linguagem;
- a coleta de prompts de interação elaborados pelo avaliador com o objetivo de avaliar o desempenho do grande modelo de linguagem em uma tarefa objetivo;
- a submissão de prompts de interação ao grande modelo de linguagem e coleta das saídas produzidas;
- a apresentação dessas saídas ao avaliador;
- a coleta da avaliação do avaliador a respeito dessas saídas.
Este módulo é oferecido junto à plataforma Moodle, mediante a disponibilização de plugins. A adoção da plataforma Moodle como a base para desenvolvimento deste módulo foi motivada pela possibilidade de fazer uso de uma série de funcionalidades, de funcionamento robusto, que trariam uma camada a mais de segurança, além de produtividade, para o desenvolvimento e produto final. Capacidades de persistência de dados e a oferta de objetos de interação com o usuário para entrada de informação são os principais elementos que o HarpIA Survey aproveita da plataforma Moodle. Conheça mais sobre este módulo analisando sua arquitetura.
Veja um resumo das características do HarpIA Survey:
- agnosticismo ao grande modelo de linguagem: não há nenhuma prerrogativa sobre o modelo de linguagem, visto que sua execução é independente da plataforma. Podem ser usados modelos comerciais, modelos de código aberto, e novos modelos. A comunicação com os modelos é feita via APIs, invocadas via código em Python;
- persistência: todos os dados são salvos no banco de dados da plataforma Moodle e podem ser exportados para análise posterior;
- familiaridade: a plataforma Moodle já bem estabelecida e possui uma extensa comunidade de usuários. Usuários já familiarizados com a plataforma terão facilidade em usar o módulo HarpIA Survey. Usuários não familiarizados deverão ter uma curva de aprendizado rápida, dada a maturidade da interação humano-computador da plaforma Moodle;
- acomplamento fraco: a arquitetura do módulo HarpIA Survey é baseado em três componentes (dois plugins para a plataforma Moodle e um servidor implementado em Python). Esse componentes são hospedados em repositórios separados e podem ser substituídos por implementações alternativas, sem afetar os outros componentes;
- robustez: o módulo HarpIA Survey implementa manuseio de dados e interações que não estavam disponíveis na plataforma Moodle, e todo o restante do trabalho é feito pela plataforma Moodle, trazendo ao HarpIA toda a maturidade das suas duas décadas de desenvolvimento;
- customização: as páginas mostradas ao avaliador odem ser totalmente customizados pelo proponente da tarefa de avaliação.
Estágio de desenvolvimento
Versão 1:
Dois tipos de atividades de avaliação são possíveis nessa versão:
- tipo 1: avaliação baseada em prompts simples – avaliação do desempenho de um grande modelo de linguagem ao responder perguntas isoladas (cada pergunta constitui, em si, o prompt de interação com o modelo);
- tipo 2: avaliação baseada em chat – avaliação do desempenho de um grande modelo de linguagem ao interagir com o usuário (cada prompt de interação do usuário é combinado ao histórico de prompts de interação anteriores).
Essencialmente, o fluxo de trabalho que permite executar as atividades na versão 1 do HarpIA Moodle é ilustrado na figura abaixo: os proponentes da tarefa de avaliação à especificam na plataforma HarpIA e os avaliadores convidados realização a avaliação via interface web (remotamente ou localmente, a depender de como a plataforma é utilizada).
Uma vez que o módulo HarpIA Survey esteja instalado, a tarefa de avaliação pode ser especificada, avalidaores podem ser registrados e, após as ações dos avaliadores, os dados produzidos podem ser exportados para análises independentes. Considerando que nenhum servidor de e-mail esteja instalado (como é o caso da distribuição do HarpIA Survey), as credenciais de acesso ao sistema são fornecidas offline.
Versão 2:
Na versão 2, a atividade de tipo 2 oferecerá integração com APIs que permitam avaliação da interação por chat derivada de sistemas de chatbots que executam sua lógica de maneira independente da execução do HarpIA Survey.
Versão 3:
Na versão 3, dois novos tipos de atividades serão oferecido, o tipo 3 e o tipo 4. Neles será possível ter dois grandes modelos de linguagem ativos, para que seja possível fazer uma avaliação de desempenho comparada, considerando tarefas de avaliação baseadas em prompt simples (tipo 3) e baseadas em chat (tipo 4).