HarpIA Survey – avaliação baseada em chat

01/03/2025

A avaliação baseada em chat exige a execução por parte do avaliador humano de uma sequência de tarefas do tipo Chat. Esta tarefa consiste em uma interação entre o avaliador humano e o modelo de linguagem, seguida da consideração pelo avaliador humano de conjunto de perguntas sobre como ele ou ela percebe certas qualidades da resposta que foi gerada pelo modelo. Vale ressaltar que, ao gerar uma resposta, o modelo pode incluir novas perguntas como uma forma de aprimorar a fluidez do diálogo e, complementarmente, o avaliador humano pode reagir a essas perguntas, participando do processo de construção de um diálogo. Por outro lado, o avaliador humano pode guiar o curso do diálogo segundo suas intenções subjetivas. Em tarefas do tipo Chat, as seguintes afirmações são tomadas como premissas:

  • Em cada interação entre o avaliador humano e o modelo de linguagem, que também pode ser chamada de turno de diálogo, deve haver uma fala do avaliador humano e uma fala do modelo. Cada fala pode ser mais ou menos complexa, consistindo de uma ou várias sentenças, sejam elas interrogativas ou não. Um conjunto de interações entre o avaliador humano e o modelo de linguagem, delimitado por uma interação inicial e uma interação final, constitui uma instância de diálogo;
  • Cada turno de um diálogo, exceto o primeiro, deve levar em consideração os turnos que o antecedem. Em outras palavras, fazendo uma analogia com a análise estatística de dados, o conjunto de interações dentro de um diálogo não segue uma distribuição independente. O contexto e as intenções embutidos nas interações anteriores devem ser considerados no processo de compreensão e formulação das falas no turno atual, tanto pelo modelo de linguagem quanto pelo avaliador humano;
  • Como os turnos de diálogo são inerentemente relacionados, sua ordem impacta significativamente a forma como são compreendidos. Especificamente, os turnos posteriores tendem a apresentar uma maior dependência dos turnos anteriores quando comparados aos turnos iniciais. Consequentemente, a sequência (ou histórico) dos turnos em um diálogo deve influenciar o comportamento tanto do modelo de linguagem quanto do avaliador humano.

Ao configurar o HarpIA Survey para desempenhar uma avaliação do tipo Chat, resultados como os ilustrados abaixo são produzidos. No exemplo, o diálogo consiste em quatro turnos e oito falas. Além disso, o avaliador humano é solicitado, em cada turno, a responder algumas perguntas especificadas pelo pesquisador para capturar a percepção do avaliador humano com relação a certas qualidades da resposta gerada pelo modelo de linguagem. No Turno 3, o texto destacado em azul mostra um caso em que o modelo de linguagem teve sucesso em considerar o histórico antecedente ao turno atual. Em contraste, o texto destacado em vermelho apresenta um caso no qual o modelo não teve sucesso.

A fim de compreender como se dá a criação e aplicação deste tipo de tarefa no HarpIA Moodle, assista os vídeos a seguir. No primeiro vídeo, a criação de uma tarefa de avaliação baseada em ataques ao grande modelo de linguagem é ilustrada – no modelo de trabalho de um Red Team. No segundo vídeo, é mostrada a interação de um avaliador com a tarefa.

  • Criação da tarefa

  • Interação com a tarefa