HarpIA Lab

28/02/2025

O módulo HarpIA Lab é projetado para permitir que avaliações de desempenho de grandes modelos de linguagem sejam projetados como experimentos. O módulo coloca o processo de avaliação no centro da atenção, embora o grande modelo de linguagem e seu desempenho em uma tarefa seja o objeto de avaliação. O processo de avaliação, portanto, fica desacoplado do processo de construção ou otimização do grande modelo de linguagem, assumindo como entrada um artefato JSON no qual estão organizadas, adequadamente, as saídas produzidas pelo grande modelo de linguagem bem como outras informações necessárias para o processo de avaliação. O fluxo de trabalho de avaliação, dentro deste módulo, engloba:

  • a preparação dos dados que serão o insumo para o processo de avaliação;
  • a escolha de métricas e outros procedimentos de interesse a serem executos pelo módulo;
  • a análise dos resultados ainda dentro da execução do módulo;
  • a exportação dos resultados brutos ou analíticos produzidos dentro do módulo.

A arquitetura proposta para módulo é oferecido em duas modalidades de uso: (a) ele pode ser usado a partir de chamadas em linhas de comandos, para execução do HarpIA Lab Server e do HarpIA Lab Library; (b) ele pode ser usado a partir de uma interface gráfica Web. Em ambos os casos, a execução deste módulo é local. A ideia é que o usuário possa estabelecer um fluxo de trabalho de avaliação e possa documentar esse fluxo em arquivos JSON para processamento posterior ou para realização de atividades de repetitibilidade e auditoria do processo avaliativo. Algumas funcionalidades analíticas são, ou serão, também oferecidas pelo módulo, o que permite que o usuário automatize, em grande parte, o processo de execução da avaliação.

Veja um resumo das características do HarpIA Lab:

  • agnosticismo ao grande modelo de linguagem sob avaliação: não há nenhuma prerrogativa sobre o modelo de linguagem, visto que sua execução é independente da plataforma. Podem ser usados modelos comerciais, modelos de código aberto, e novos modelos. O processo de avaliação, destinado à aferição de qualidade dos modelos, é executado a partir de arquivos de entrada que contêm os dados a serem avaliados. Especificamente no caso de avaliações do tipo ‘ataque’, que exigem um ciclo de interação com o modelo sob avaliação, a comunicação é implementada via ‘gateway’, de forma que a execução do modelo é independente da plataforma do módulo HarpIA Lab.
  • facilitação à reprodutibilidade e auditoria: o fluxo de avaliação realizado no módulo HarpIA Lab é documentado em arquivos do tipo JSON e, no caso da geração de visualizações, em arquivos do tipo imagem podem ser baixados pelo usuário. Os arquivos JSON dizem respeito aos dados de entrada do processo avaliativo, às escolhas realizadas em termos de métricas e procedimentos, parâmetros associados, e resultados obtidos (agregados ou por instância testada). O usuário pode disponibilizar esses arquivos com forma de proporcionar transparência ao processo de avaliação executado. Ainda, dentro do módulo HarpIA Lab cada métrica ou procedimento de avaliação possui um identificador único. Esse identificador garante que a documentação do processo avaliativo indique exatamente a implementação que produziu um resultado. Diante dessa organização, os dados produzidos na avaliação podem ser usados como benchmark com segurança, uma vez que terceiros terão condições de verificar o ferramental usado na produção dos dados.
  • produtividade: o usuário encontra no HarpIA Lab, a disponibilização de ferramental que deveria ser organizado em implementações ad hoc, caso precisassem ser organizados para cada avaliação pretendida. Ao usar o módulo, o usuário economiza tempo de desenvolvimento de código e minimiza a incorrência em erros comuns na produção de implementações ad hoc.
  • facilitação à análise comparativa: dentro do HarpIA Lab, os dados produzidos na avaliação de diferentes modelos podem ser comparados. Inicialmente essa comparação se dá por meio da análise de visualizações. No projeto do módulo, está prevista a comparação direta, via testes de hipóteses e outros procedimentos estatísticos.

Estágio de desenvolvimento

Versão 1:

Nesta versão, o Harpia Lab oferecerá:

  • a implementação de métricas de avaliação quantitativa, orientadas à avaliação de capacidades de processamento de linguagem natural. Por exemplo, BertScore, MoverScore, BLUE, METEOR. 25 métricas estarão disponíveis nesta versão.
  • a implementação de uma interface Web que facilita o fluxo de trabalho dentro do módulo.
  • a implementação de uma funcionalidade de geração de gráficos, facilitadora da análise de dados produzidos pelas métricas. Nesta versão, dois tipos de gráficos estarão disponíveis.

Essencialmente, o fluxo de trabalho que permite executar as atividades na versão 1 do HarpIA Lab é ilustrado na figura abaixo: os proponentes da tarefa de avaliação à escolhem quais avaliações desejam realizar na plataforma HarpIA, as avaliações são executadas pela plataforma, e os proponentes da avaliação pode exportar os resultados e analisá-los visualmente.

Versão 2:

Na versão 2 serão oferecidas métricas de avaliação de geração aumentada por recuperação (RAG – Retrieval Augmented Generation) e procedimentos de automação de testes por ataque (no estilo de trabalho Red Team).

Versão 3:

Na versão 3 serão oferecidos métodos de validação estatística para proporcionar a comparação robusta entre vários grandes modelos de linguagem e melhorias nas capacidades de visualização científica oferecidas no módulo.