A rápida evolução dos grandes modelos de linguagem e a evidente competência deles como modelos fundacionais e como base para a construção de agentes conversacionais de propósito geral aguçam o desejo de pessoas e organizações por usá-los em uma vasta gama de aplicações. O uso de modelos de linguagem tem provado ser interessante na resolução de diferentes problemas que, por natureza, tem suas soluções baseadas no processamento de uma língua natural.
Contudo, é exatamente quando deseja-se colocar o modelo de linguagem como o núcleo de um sistema de informação que atenderá a uma necessidade específica que nos deparamos com uma das maiores dificuldades da área: como atestar a qualidade do modelo. A tarefa de consistentemente avaliar a competência de um modelo de linguagem ainda é uma questão em aberto. A complexidade desta tarefa aumenta quando esses modelos são acoplados a recursos externos como rebuscados procedimentos de engenharia de prompt e uso de contextos como suporte para formulação de respostas.
Essa avaliação, quando quantitativa, é pouco expressiva. Quando a competência do modelo de linguagem é reduzida a um pequeno conjunto de números, embora possamos tirar conclusões relativas entre diferentes modelos submetidos ao mesmo método de avaliação, dificilmente conseguimos compreender em que aspectos um modelo é melhor do que outro ou o que é preciso melhorar. Por outro lado, quando a avaliação é qualitativa, nos deparamos com problemas de custos, falta de sistematização e reprodutibilidade e dificuldades em minimizar subjetividade. Ainda, no que diz respeito a aspectos não funcionais de um sistema, dentro do contexto de modelos de linguagem, há que se preocupar com questões éticas, legais, de segurança da informação e de segurança de comportamento do próprio modelo.
Nesse contexto estabelece-se um dos pontos de atenção do grupo KEML: o estudo de métodos para avaliação de modelos de linguagem. Os esforços do grupo estão voltados para duas frentes:
- desenvolvimento de um framework de avaliação, denominado HarpIA, que permite avaliações quantitativas e qualitativas, baseadas em diferentes estratégias e suportadas por sistemas que permitem sistematização, reprodutibilidade, padronização e transparência de avaliação.
- proposição de ambientes de avaliação de grandes modelos de linguagem, orientados a tarefas e a domínio, nos quais seja possível explotar o desempenho dos modelos de forma objetiva e controlada. Nessa linha de atuação, o grupo oferece os ambientes Cocoruta e Blabinha.
Conheça um pouco mais ….
- Espírito Santo, F. O.; Peres, S. M.; Gramacho G. S.; Brandão A. A. F.; Cozman, F. G. Legal Document-Based, Domain-Driven Q&A System: LLMs in Perspective . In the International Joint Conference on Neural Networks (IJCNN 2024), Yokohama – Japão, 2024. p.1-9. ISBN: 978-8-3503-5931-2.
- Outras publicações aqui!