Entradas e saídas

HarpIA Lab

As atividades de avaliação suportadas pelo HarpIA Lab assumem como entrada arquivos JSON, e geram como saída arquivos JSON e visualizações gráficas. Há diferentes tipos de arquivos a serem usados, dependendo da atividade de avaliação desejada.

Arquivo JSON de entrada para os submódulos: métricas (LLM)

Clique na imagem para aumentá-la.

Neste arquivo são especificadas as instâncias (saídas produzidas por um grande modelo de linguagem e informações adicionais) sobre as quais a avaliação será realizada e as métricas (e seus parâmetros) que se deseja incluir nesta avaliação. A primeira parte deste arquivo, ou seja, a lista de instâncias, deve necessariamente ser construída fora da plataforma HarpIA. A segunda parte, referente às métricas, pode ser construída dentro do módulo HarpIA Lab se a interface gráfica for usada.

Os campos que compõem as instâncias no JSON são:

id: identificador da instância de teste (determinado pelo usuário);
input: entrada fornecida ao grande modelo de linguagem sob análise;
expected-output: lista de possíveis saídas de referência para a entrada associada;
actual-output: lista de saídas produzidas pelo grande modelo de linguagem sob análise para a entrada associada.

Os campos que compõem a lista de métricas no JSON são:

id: identificador da métrica (nome da métrica no HarpIA Lab Library);
enable: indicador se a métrica deve ou não ser executa (eventualmente, o usuário pode desejar executar a avaliação sem que uma determinada métrica listada seja executada);
parameters: valores a serem usados nos parâmetros da métrica associada.

Veja um exemplo de como o arquivo é instanciado para avaliação de um grande modelo de linguagem usado na tarefa de tradução:

Clique na imagem para aumentá-la.

No exemplo, a instância de teste (input) é uma frase em português que foi submetida a um grande modelo de linguagem instruído para realizar a tarefa de tradução para o inglês. A resposta esperada (expected-output), se fornecida, habilita a execução de métricas de avaliação supervisionadas – que necessitam receber uma frase de referência, considerada o gold standard, para comparações com a frase gerada pelo modelo sob avaliação. Mais de uma frase de referência pode ser fornecida e, neste caso, a métrica usa todas para fazer comparações e retorna o melhor resultado obtido (em favor do modelo sob avaliação). A resposta gerada pelo modelo entra no último campo (actual-output).

O arquivo de entrada de exemplo ilustra a escolha de três métricas, e todas estão habilitadas para serem executadas (enable: true). A primeira da lista é uma implementação da plataforma NLTK da métrica BLUE que trabalha com parametrização – três parâmetros neste caso. A segunda da lista também é uma implementação da métrica BLUE, porém da biblioteca Evaluate do Hugging Face – nenhum parâmetro é esperado nesta implementação. A terceira da lista é uma métrica baseada em embeddings, a BERTSCORE, com dez parâmetros e também implementada na biblioteca Evaluate.

Arquivos JSON de saída para os submódulos: métricas (LLM)

em construção ….