HarpIA Lab
As atividades de avaliação suportadas pelo HarpIA Lab assumem como entrada arquivos JSON, e geram como saída arquivos JSON e visualizações gráficas. Há diferentes tipos de arquivos a serem usados, dependendo da atividade de avaliação desejada.
Arquivo JSON de entrada para os submódulos: métricas (LLM)
Neste arquivo são especificadas as instâncias (saídas produzidas por um grande modelo de linguagem e informações adicionais) sobre as quais a avaliação será realizada e as métricas (e seus parâmetros) que se deseja incluir nesta avaliação. A primeira parte deste arquivo, ou seja, a lista de instâncias, deve necessariamente ser construída fora da plataforma HarpIA. A segunda parte, referente às métricas, pode ser construída dentro do módulo HarpIA Lab se a interface gráfica for usada.
Os campos que compõem as instâncias no JSON são:
- id: identificador da instância de teste (determinado pelo usuário);
- input: entrada fornecida ao grande modelo de linguagem sob análise;
- expected-output: lista de possíveis saídas de referência para a entrada associada;
- actual-output: lista de saídas produzidas pelo grande modelo de linguagem sob análise para a entrada associada.
Os campos que compõem a lista de métricas no JSON são:
- id: identificador da métrica (nome da métrica no HarpIA Lab Library);
- enable: indicador se a métrica deve ou não ser executa (eventualmente, o usuário pode desejar executar a avaliação sem que uma determinada métrica listada seja executada);
- parameters: valores a serem usados nos parâmetros da métrica associada.
Veja um exemplo de como o arquivo é instanciado para avaliação de um grande modelo de linguagem usado na tarefa de tradução:
No exemplo, a instância de teste (input) é uma frase em português que foi submetida a um grande modelo de linguagem instruído para realizar a tarefa de tradução para o inglês. A resposta esperada (expected-output), se fornecida, habilita a execução de métricas de avaliação supervisionadas – que necessitam receber uma frase de referência, considerada o gold standard, para comparações com a frase gerada pelo modelo sob avaliação. Mais de uma frase de referência pode ser fornecida e, neste caso, a métrica usa todas para fazer comparações e retorna o melhor resultado obtido (em favor do modelo sob avaliação). A resposta gerada pelo modelo entra no último campo (actual-output).
O arquivo de entrada de exemplo ilustra a escolha de três métricas, e todas estão habilitadas para serem executadas (enable: true). A primeira da lista é uma implementação da plataforma NLTK da métrica BLUE que trabalha com parametrização – três parâmetros neste caso. A segunda da lista também é uma implementação da métrica BLUE, porém da biblioteca Evaluate do Hugging Face – nenhum parâmetro é esperado nesta implementação. A terceira da lista é uma métrica baseada em embeddings, a BERTSCORE, com dez parâmetros e também implementada na biblioteca Evaluate.
Arquivos JSON de saída para os submódulos: métricas (LLM)
em construção ….