Avaliação de grandes modelos de linguagem

Imagem gerada por IA (Copilot)

A rápida evolução dos grandes modelos de linguagem e a evidente competência deles como modelos fundacionais e como base para a construção de agentes conversacionais de propósito geral aguçam o desejo de pessoas e organizações por usá-los em uma vasta gama de aplicações. O uso de modelos de linguagem tem provado ser interessante na resolução de diferentes problemas que, por natureza, tem suas soluções baseadas no processamento de uma língua natural.

Contudo, é exatamente quando deseja-se colocar o modelo de linguagem como o núcleo de um sistema de informação que atenderá a uma necessidade específica que nos deparamos com uma das maiores dificuldades da área: como atestar a qualidade do modelo. A tarefa de consistentemente avaliar a competência de um modelo de linguagem ainda é uma questão em aberto. A complexidade desta tarefa aumenta quando esses modelos são acoplados a recursos externos como rebuscados procedimentos de engenharia de prompt e uso de contextos como suporte para formulação de respostas.

Essa avaliação, quando quantitativa, é pouco expressiva. Quando a competência do modelo de linguagem é reduzida a um pequeno conjunto de números, embora possamos tirar conclusões relativas entre diferentes modelos submetidos ao mesmo método de avaliação, dificilmente conseguimos compreender em que aspectos um modelo é melhor do que outro ou o que é preciso melhorar. Por outro lado, quando a avaliação é qualitativa, nos deparamos com problemas de custos, falta de sistematização e reprodutibilidade e dificuldades em minimizar subjetividade. Ainda, no que diz respeito a aspectos não funcionais de um sistema, dentro do contexto de modelos de linguagem, há que se preocupar com questões éticas, legais, de segurança da informação e de segurança de comportamento do próprio modelo.

Nesse contexto estabelece-se um dos pontos de atenção do grupo KEML: o estudo de métodos para avaliação de modelos de linguagem. Os esforços do grupo estão voltados para duas frentes:

desenvolvimento de um framework de avaliação, denominado HarpIA, que permite avaliações quantitativas e qualitativas, baseadas em diferentes estratégias e suportadas por sistemas que permitem sistematização, reprodutibilidade, padronização e transparência de avaliação.
proposição de ambientes de avaliação de grandes modelos de linguagem, orientados a tarefas e a domínio, nos quais seja possível explotar o desempenho dos modelos de forma objetiva e controlada. Nessa linha de atuação, o grupo oferece os ambientes Cocoruta e Blabinha.

Conheça um pouco mais ….

Espírito Santo, F. O.; Peres, S. M.; Gramacho G. S.; Brandão A. A. F.; Cozman, F. G. Legal Document-Based, Domain-Driven Q&A System: LLMs in Perspective . In the International Joint Conference on Neural Networks (IJCNN 2024), Yokohama – Japão, 2024. p.1-9. ISBN: 978-8-3503-5931-2.
Outras publicações aqui!

Modelos de linguagem para português

Uma das tarefas do grupo KEML neste projeto é avaliar modelos de linguagem voltados à língua portuguesa (variedades brasileira e europeia). Mantemos uma lista de modelos otimizados para o português, com foco em arquiteturas de pelo menos 1 bilhão de parâmetros.

Para cada modelo, buscamos registrar as seguintes informações:

nome
data de lançamento
licença
variante do português usada
tamanho
modelo de linguagem de base
disponibilidade dos pesos otimizados e link de acesso (quando disponível)
variações existentes
dados de treinamento/fine-tuning e link de acesso (quando disponível)
data de corte dos dados usados no treinamento
API associada
sistema de chat online com nome e link de acesso (quando disponível)
equipe responsável pelo desenvolvimento

Convidamos a comunidade a acessar a lista e contribuir para sua atualização. Algumas informações podem estar incompletas ou indisponíveis, e colaborações serão devidamente creditadas.

Entre em contato se você quiser contribuir com a lista!