A tarefa do tipo 2 consiste em uma sequência de interações entre o usuário e o modelo de linguagem tipicamente, mas não necessariamente, formatadas como perguntas feitas pelo usuário e respostas geradas pelo modelo. Ao gerar uma resposta, os modelos podem incluir novas perguntas como uma forma de aprimorar a fluidez do diálogo. Por sua vez, o usuário pode reagir a essas perguntas potenciais, também participando do processo de estabelecimento de um diálogo, ou guiando o curso do diálogo para diferentes intenções, conforme desejar. Para o caso da tarefa do tipo 2, algumas assertivas são tomadas como premissas:
- Em cada interação entre o usuário e o modelo, que também pode ser chamada de turno de diálogo, deve haver uma fala do usuário e uma fala do modelo (que pode ser mais ou menos complexa, consistindo de uma ou várias sentenças, sejam elas interrogativas ou não). Um conjunto de interações entre o usuário e o modelo, delimitado por uma interação inicial e uma interação final, constitui uma instância de diálogo.
- Dentro de uma instância de diálogo, cada interação, exceto a primeira, deve levar em consideração as interações anteriores. Em outras palavras, fazendo uma analogia com a análise de dados estatísticos, o conjunto de interações dentro de um diálogo não segue uma distribuição independente. O contexto e as intenções embutidos nas interações anteriores devem ser considerados no processo de compreensão e formulação das falas no turno atual, tanto pelo modelo quanto pelo usuário.
- Como consequência das relações entre os turnos de diálogo, a ordem em que eles ocorrem pode influenciar sua qualidade. Especificamente, os turnos posteriores provavelmente exibem maior dependência dos anteriores do que os turnos iniciais. A sequência (ou história) dos turnos em um diálogo deve influenciar tanto as falas do modelo quanto as falas do usuário.
Interações com o HarpIA Survey configurado para suportar a tarefa de avaliação do tipo 2 produziriam resultados como o exemplo abaixo. O diálogo consiste em quatro turnos e oito falas. Para cada turno, é solicitado que o avaliador responda algumas perguntas avaliativas. No Turno 3, há uma gestão de ‘histórico’ realizado corretamente pelo modelo de linguagem , com evidências destacadas em azul. A gestão de ‘histórico’ no Turno 4 foi incorreta, e o erro causado é destacado em vermelho.
A fim de compreender como se dá a criação deste tipo de tarefa no HarpIA Moodle, assista o vídeo. No vídeo, uma avaliação baseada em ataques ao grande modelo de linguagem é ilustrada – no modelo de trabalho de um Red Team.