HarpIA Lab

O módulo HarpIA Lab foi concebido para facilitar a avaliação de grandes modelos de linguagem (LLMs) de forma automatizada. O módulo coloca o processo de avaliação como foco de atenção, embora o desempenho de um LLM em uma certa tarefa seja o alvo da avaliação. Em outras palavras, o processo de avaliação é integralmente desacoplado dos processos de construção e otimização do LLM. Desta forma, o processo de avaliação foi desenhado para receber como entrada um arquivo JSON no qual estão organizadas, adequadamente, tanto as saídas produzidas pelo LLM que se deseja avaliar, quanto as métricas que devem ser calculadas, além de outros dados necessários para realização da avaliação. Resumidamente, o fluxo de trabalho de avaliação usando o HarpIA Lab pode ser descrito pelos seguintes passos:

a preparação dos dados que serão o insumo para o processo de avaliação;
a escolha de métricas e outros procedimentos de interesse a serem executos pelo módulo;
a análise dos resultados usando ferramentas oferecidas pelo HarpIA Lab;
a exportação dos resultados brutos ou analíticos produzidos pelo módulo para análise usando ferramentas de preferência do pesquisador.

O HarpIA Lab pode ser usado de duas formas: (a) a partir da linha de comando ou (b) por meio de interface web. Em ambos os casos, a ideia é que o pesquisador possa estabelecer um processo de avaliação e documentar o fluxo desse processo em arquivos JSON para processamento posterior, seja para realização de atividades de auditoria dos resultados obtidos ou de replicação e reprodução do estudo avaliativo.

Vale também ressaltar algumas outras características que guiam o desenho do HarpIA Lab:

agnosticismo em relação ao LLM avaliado: este módulo pode ser usado para avaliar qualquer LLM, seja ele um modelo oferecido comercialmente ou um modelo de código aberto operando em infraestrutura local. O processo de avaliação, que se destina à aferição de qualidade dos modelos, é executado a partir de arquivos de entrada que contêm dados que expressam o comportamento do LLM sendo avaliado. Em situações nas quais o módulo precisa interagir com o LLM, como é o caso de avaliações do tipo “ataque”, a comunicação será implementada via “gateway”, de forma que a execução do modelo fica desacoplada do módulo HarpIA Lab.
facilitação à reprodutibilidade e auditoria: os resultados de uma avaliação realizada no módulo HarpIA Lab são documentados em arquivos do tipo JSON. Esses arquivos contém os dados que serviram de entrada do processo avaliativo, as escolhas realizadas pelo pesquisador quanto as métricas que devem ser consideradas na avaliação e os resultados obtidos (agregados ou por instância testada). O pesquisador é encorajado a compartilhar esses arquivos como forma de proporcionar transparência aos dados incluídos em suas publicações. Desta forma, os dados produzidos na avaliação podem ser usados como benchmark com segurança, uma vez que terceiros terão condições de auditar ou reproduzir os dados que compõem a avaliação.
economia de tempo e recursos: o módulo HarpIA Lab permite ao pesquisador economizar tempo e recursos necessários ao desenvolvimento de código e reduz a ocorrência em erros comuns na produção de implementações ad hoc.
facilitação à análise comparativa: o HarpIA Lab pretende facilitar a comparação de diferentes modelos por meio dos resultados de suas avaliações. Essa comparação se dará por meio da análise de visualizações e também por meio de procedimentos estatísticos empregados na literatura especializada, como indica o planejamento de releases descrito a seguir.

Estágio de desenvolvimento

Versão 1:

Nesta versão, o HarpIA Lab oferece:

uma interface web que facilita o fluxo de trabalho dentro do módulo;
um conjunto de métricas de avaliação quantitativa, orientadas à avaliação de capacidades de processamento de linguagem natural: BertScore, MoverScore, BLEU e METEOR.

O fluxo de trabalho na versão 1 é ilustrado na figura abaixo: o pesquisador prepara o conjunto de dados que expressam o comportamento do LLM em uma determinada tarefa. A seguir, o pesquisador submete os dados no formato esperado pela plataforma ao módulo HarpIA Lab e dispara a avaliação. A avaliação é executada pela plataforma e, ao final, os resultados podem ser baixados pelo pesquisador para analisá-los usando ferramentas de sua preferência.

Versão 2:

Na versão 2 serão oferecidas novas métricas quantitativas e métricas focadas na avaliação de geração aumentada por recuperação (RAG – Retrieval Augmented Generation). Também serão oferecidos procedimentos de automação de testes por ataque (no estilo de trabalho Red Team). Por fim, esta versão também contará com a implementação de uma funcionalidade de geração de gráficos, facilitando a condução de análise exploratória de dados (EDA).

Versão 3:

Na versão 3 serão oferecidos métodos de validação estatística para proporcionar a comparação robusta entre dois ou mais LLMs, bem como melhorias na capacidade de visualização gráfica dos resultados.