A avaliação baseada em prompt simples exige a execução por parte do avaliador humano de uma sequência de tarefas do tipo Q&A. Esta tarefa consiste em uma interação entre o avaliador humano e o modelo de linguagem, seguida da consideração pelo avaliador humano de conjunto de perguntas sobre como ele ou ela percebe certas qualidades da resposta que foi gerada pelo modelo. A tarefa assume a disponibilidade de um grande modelo de linguagem (LLM) ativo, cujo comportamento é modificado por um prompt de sistema para atender as expectativas do pesquisador. A entrada para o modelo é um único prompt (expresso em linguagem natural) submetido pelo avaliador humano e a saída consiste em uma única resposta gerada pelo modelo (também expressa em linguagem natural). Neste contexto, algumas afirmações são tomadas como premissas:
- Cada prompt apresentado como entrada para o modelo de linguagem constitui uma instância que é processada independentemente de outras instâncias. Por analogia com a análise estatística de dados, o conjunto de prompts submetidos pelo avaliador humano ao modelo de linguagem deve seguir uma distribuição independente. Em outras palavras, o contexto e a intenção inerentes a um prompt não estão relacionados ao contexto e intenção inerentes a quaisquer outros prompts submetidos anteriormente ao modelo de linguagem;
- Como consequência dessa independência, a ordem em que os prompts são apresentados ao modelo de linguagem não influencia o processo de geração de respostas aos prompts e, portanto, não afeta os resultados da avaliação do modelo de linguagem.
Alguns exemplos de tarefas típicas realizadas por LLMs que podem ser modeladas como tarefas do tipo Q&A são: completamento de texto, perguntas e respostas (Q&A), tradução, resumo e parafraseamento. Ao configurar o HarpIA Survey para desempenhar uma avaliação baseada em prompt simples, resultados como os ilustrados abaixo são produzidos.
A fim de compreender como se dá a criação e aplicação deste tipo de tarefa no HarpIA Survey, assista os vídeos a seguir. No primeiro vídeo, a criação de uma tarefa para avaliação baseada em ataques a um grande modelo de linguagem é ilustrada – no modelo de trabalho de um Red Team. No segundo vídeo, é mostrada a interação de um avaliador com a tarefa.
- Criação da tarefa
- Interação com a tarefa