O grupo KEML, desde que foi criado em 2021, criou uma série de modelos para diversos propósito: tradutor do tipo text2SQL, modelos de linguagem anteriores ao evento dos grandes modelos de linguagem, arquiteturas para implementação de agentes conversacionais, etc. Aqui você encontra uma lista de repositórios do GitHub e do Hugging Face que ilustra o trabalho já realizado pelo grupo.
Mais informações sobre esses modelos pode ser obtidas neste website, nas opções do menu Recursos, ou via Contato com o grupo.
- Cocoruta 1.0: é um modelo de linguagem especializado, ajustado para responder perguntas baseadas em documentos jurídicos, desenvolvido para abordar questões legais relacionadas à “Amazônia Azul” — um termo usado para descrever o extenso território marítimo do Brasil. Cocoruta 1.0 é baseado no modelo LLaMa 2-7B, ajustado com um corpus de 68.991 documentos jurídicos totalizando 28,4 milhões de tokens. Apesar de ter sido treinado com menos parâmetros do que alguns modelos maiores, o Cocoruta demonstra um desempenho competitivo no discurso jurídico específico de seu domínio.
O modelo Cocoruta, com 7 bilhões de parâmetros (LLaMa 2-7B), foi treinado utilizando um conjunto de dados de 28,4 milhões de tokens extraídos de 68.991 documentos jurídicos. O processo de treinamento envolveu 15 épocas para garantir uma aprendizagem abrangente dos dados. A eficácia do modelo na geração de conteúdo jurídico preciso e relevante foi avaliada por meio de várias métricas automáticas de avaliação. Ele alcançou uma pontuação BLEU de 61,2, uma pontuação ROUGE-N de 79,2, uma BERTSCORE de 91,2 e uma MOVERSCORE de 76,5, destacando seu forte desempenho na produção de textos jurídicos de alta qualidade.
O desempenho do Cocoruta na avaliação qualitativa demonstrou a utilidade do ajuste fino, já que respostas alinhadas ao discurso jurídico foram mais frequentes no Cocoruta em comparação com modelos maiores. Os modelos maiores apresentaram maior proficiência, entregando respostas bem estruturadas. No entanto, para perguntas não diretamente relacionadas ao contexto jurídico, as respostas dos modelos maiores não mantiveram o discurso legal: Adesão ao discurso jurídico: 74%; Respostas corretas: 68%; Discurso inadequado: 51%.
Aviso Legal: O Cocoruta pode reproduzir preconceitos e vieses inerentes aos documentos jurídicos utilizados em seu treinamento, que incluem legislações mais antigas. Os usuários devem ter cautela ao interpretar as saídas do modelo, especialmente em contextos que exijam perspectivas jurídicas atualizadas ou que possam envolver grupos sub-representados. Observamos que o modelo Cocoruta, embora menos proficiente no tratamento de enunciados em comparação com modelos maiores, tende a introduzir um viés jurídico nas interações potenciais.
Acesse o modelo aqui.
Artigo científico relacionado ao Cocoruta 1.0 (por favor, cite este artigo se utilizar o modelo Cocoruta 1.0):
- Espírito Santo, F. O.; Peres, S.M.; Gramacho, G. S.; Brandão, A. A. F.; Cozman, F. G. Legal Document-Based, Domain-Driven Q&A System: LLMs in Perspective. In Proceedings of International Joint Conference on Neural Networks (IJCNN 2024), Japão, 2024.
* “Cocoruta” é o nome dado a uma espécie de pássaro endêmica do arquipélago de Fernando de Noronha (Brasil), atualmente ameaçada de extinção. O nome do recurso foi escolhido como forma de homenagear a biodiversidade e ajudar na defesa da conservação da Amazônia Azul (costa brasileira).