HarpIA Survey

O módulo HarpIA Survey é dedicado ao suporte de avaliações que são executadas por humanos. Uma vez que o pesquisador dispõe de um grande modelo de linguagem (LLM) ativo e um grupo de avaliadores humanos, este módulo ajuda na realização de tarefas que são comumente necessárias a condução de um estudo de avaliação envolvendo sujeitos humanos, como:

a criação de uma equipe de avaliação, composta por um ou mais avaliadores humanos;
a especificação de tarefas de avaliação, incluindo a estratégia de engenharia de prompt que determina o comportamento geral do LLM;
a coleta de prompts de interação elaborados pelo avaliador com o objetivo de avaliar o desempenho do LLM segundo a tarefa especificada pelo pesquisador;
a coordenação da submissão de prompts de interação ao LLM sendo avaliado, bem como a apresentação das respostas geradas pelo modelo ao avaliador humano;
a coleta das respostas do avaliador humano ao questionário especificado pelo pesquisador, cujas perguntas (variáveis do estudo) guiam o avaliador na apreciação das respostas geradas pelo modelo.

Este módulo é construído sobre a plataforma Moodle, a qual foi customizada por meio de plugins criados pelo projeto HarpIA. A adoção da plataforma Moodle como base para o desenvolvimento deste módulo foi motivada pela possibilidade de fazer uso de suas funcionalidades nativas, como autenticação de usuários, persistência robusta de dados e a facilidade de customização de páginas web que serão empregadas nas tarefas de avaliação especificadas pelo pesquisador. Essas funcionalidades reduzem o tempo necessário para preparação da infraestrutura necessária para conduzir estudos com usuários e promovem a segurança dos dados coletados dos participantes. Conheça mais sobre este módulo analisando sua arquitetura.

Vale também ressaltar algumas outras características que guiaram o desenho do HarpIA Survey:

familiaridade: o Moodle é uma plataforma de eLearning que conta com uma extensa comunidade de usuários ao redor do mundo. Pesquisadores bem familiarizados com a plataforma terão facilidade em usar o módulo HarpIA Survey, ao passo que pesquisadores menos familiarizados podem enfrentar uma curva de aprendizado moderada, mas que pode ser suavizada com os inúmeros recursos de treinamento oferecidos de forma online e gratuita;
customização: as páginas web que serão apresentadas ao avaliador humano podem ser amplamente customizadas pelo pesquisador usando ferramentas nativas da plataforma Moodle, o que permite ajustar a usabilidade do website às necessidades particulares de cada avaliação;
persistência: todos os dados são salvos no banco de dados da plataforma Moodle e podem ser exportados para análise usando ferramentas estatísticas, copiados para replicação do estudo com outra população de avaliadores ou becapeados;
baixo acoplamento interno: o módulo HarpIA Survey é composto por três componentes (dois plugins para a plataforma Moodle e um gateway que coordena a comunicação com LLMs). Esses componentes são relativamente independentes e se comunicam por meio de APIs bastante flexíveis;
agnosticismo em relação ao LLM avaliado: este módulo pode ser usado para avaliar qualquer LLM, seja ele um modelo oferecido comercialmente ou um modelo de código aberto operando em infraestrutura local. Além disso, novos modelos podem ser facilmente incorporados, uma vez que a comunicação com os modelos é feita por meio de APIs invocadas por meio de scripts em Python.

Estágio de desenvolvimento

Versão 1:

Dois tipos de avaliação são possíveis nessa versão:

avaliação baseada em prompts simples (Q&A) – avaliação do desempenho de um LLM ao responder perguntas isoladas (cada pergunta constitui, em si, o prompt de interação com o modelo);
avaliação baseada em chat (Chat) – avaliação do desempenho de um LLM ao interagir com o usuário (cada prompt de interação do usuário é combinado ao histórico de prompts de interação anteriores).

Essencialmente, o fluxo de trabalho implementado na versão 1 do HarpIA Moodle é ilustrado na figura abaixo: o pesquisador especifica a tarefa de avaliação na plataforma HarpIA e os avaliadores convidados realizam a avaliação do LLM. Ambos interagem com a plataforma de forma remota por meio de qualquer um dos navegadores web modernos, como o Chrome, Firefox, Safari ou Edge.

Uma vez que o módulo HarpIA Survey esteja instalado, a tarefa de avaliação pode ser especificada, os avaliadores podem ser registrados e, após a participação dos avaliadores no estudo, os dados coletados podem ser exportados para análise usando ferramentas estatísticas de preferência do pesquisador. Considerando que nenhum servidor de e-mail esteja instalado (como é o caso da distribuição do HarpIA Survey neste primeiro release), as credenciais de acesso à plataforma devem ser encaminhadas manualmente para cada avaliador convidado.

Veja um vídeo sobre como as avaliações podem ser realizadas no HarpIA Survey v.1:

Versão 2:

Na versão 2, a avaliação do tipo Q&A oferecerá integração com APIs que permitam avaliação de LLMs embutidos em sistemas conversacionais (chatbots), os quais são executados em infraestrutura independente daquela onde o módulo HarpIA Survey é executado.

Versão 3:

Na versão 3, dois novos tipos de avaliação serão oferecidos. Eles permitirão a interação com dois LLMs ativos simultaneamente, possibilitando uma avaliação comparativa com base nos modos de interação descritos tanto pelo tipo de avaliação baseada em prompt simples (Q&A-comparativa) quanto no tipo de avaliação baseada em chat (Chat-comparativa).