Pirá
O Pirá, em suas versões 1.0 e 2.0, é um recurso que conta com corpora e conjunto de perguntas e respostas. Embora o recurso tenha já duas versões, a dupla de corpora é comum para essas versões e está organizada da seguinte forma:
- corpus 1: 3.891 resumos de artigos científicos que relatam pesquisas realizadas em assuntos relacionados à costa brasileira, extraídos do indexador Scopus. Os resumos foram escolhidos a partir de um filtro realizado mediante uma expressão regular de busca contendo palavras-chave relacionadas à costa brasileira. Disponíveis em inglês e português.
- corpus 2: 189 pequenos trechos de dois relatórios sobre o oceano global organizados pela Nações Unidades (World Ocean Assessment I and World Ocean Assessment II). Os trechos foram escolhidos manualmente. Disponíveis em inglês e português.
Acesso ao corpus Pirá: Github, Hugging Face.
Artigos científicos que descrevem o Pirá (por favor, cite pelo menos um desses artigos se você fizer uso dos corpora associados ao Pirá):
- Pirozelli, P.; José, M. M.; Silveira, I. C.; Nakasato, F.; Peres, S. M.; Brandão, A. A. F.; Costa, A. H. R.; Cozman, F. G. Benchmarks for Pirá 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change. Data Intelligence (MIT Press Direct 2024), 2024. v.6. p.29-63. https://doi.org/10.1162/dint_a_00245
- Paschoal, A. F. A.; Pirozelli, P.; Freire, V.; Delgado, K. V.; Peres, S. M.; José, M. M.; Nakasato, F.; Oliveira, A. S.; Brandão, A. A. F.; Costa, A. H. R.; Cozman, F. G. Pirá: A Bilingual Portuguese-English Dataset for Question-Answering about the Ocean. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management (CIKM’21), Queensland Australia, 2021. p. 4544–4553. https://doi.org/10.1145/3459637.3482012
* A palavra Pirá significa “peixe” em Tupi-Guarani, uma família de línguas indígenas da América do Sul que influenciou fortemente o português brasileiro.
Cocoruta
O Cocoruta, em suas versões 1.0 e 2.0, é um recurso que conta com corpora, conjuntos de perguntas e respostas e modelos otimizados sobre esses conjuntos. Os corpora são organizados da seguinte forma:
- Corpus Cocoruta 1.0: leis, medidas provisórias, decretos, portarias e outros documentos legais que tratam de questões de governança nacional (brasileira). O corpus é composto por 172.408 documentos, constituindo um corpus substancial contendo 67,2 milhões de tokens. A adequação do corpus para foco no domínio Amazônia Azul (costa brasileira) foi realizado via filtragem com uma expressão regular com palavras-chave associadas ao tema oceano. O corpus filtrando contém 68.991 documentos, totalizando 28,4 milhões de tokens.
- Corpus Cocoruta 2.0: leis, medidas provisórias, decretos, portarias e outros documentos legais que tratam de questões de governança nacional. O corpus é composto por 200.000 documentos, totalizando 226 milhões de tokens. Após a aplicação da filtragem via expressão regular, constituimos um corpus especializado em assuntos do mar com 53 mil documentos. Os documentos do corpus estão em formato JSON, descritos por meio dos seguintes campos: ano do documento, situação (revogado ou não); tipo (lei, decreto, portaria ….); título (p.ex: Lei Complementar no. 63, de 11 de janeiro de 1998); resumo (ementa do documento); html-string (conteúdo); URL (endereço do documento original).
Diferenças entre o Cocoruta 1.0 e 2.0: o corpus Cocoruta 1.0 pode ser considerando uma “cesta” de documentos legais. Ele não está organizado de forma estruturada a partir de metadados como o Cocoruta 2.0. Além disso, a expressão regular usada para filtragem de documentos sobre o mar foi mais especializada para a segunda versão do corpus. Ela passou a contar com mais termos, porém mais específicos.
Acesso aos corpora Cocoruta: entre em contato.
Artigo científico relacionado ao Cocoruta 1.0 (por favor, cite esse artigo se você fizer uso do Corpus Cocoruta 1.0):
- Espírito Santo, F. O.; Peres, S.M.; Gramacho, G. S.; Brandão, A. A. F.; Cozman, F. G. Legal Document-Based, Domain-Driven Q&A System: LLMs in Perspective. In Proceedings of International Joint Conference on Neural Networks (IJCNN 2024), Japão, 2024.
* “Cocoruta” é o nome dado a uma espécie de pássaro endêmica do arquipélago de Fernando de Noronha (Brasil), atualmente ameaçada de extinção. O nome do recurso foi escolhido como forma de homenagear a biodiversidade e ajudar na defesa da conservação da Amazônia Azul (costa brasileira).
BLAB Wiki
A BLAB Wiki – Blue Amazon Brain Wiki é um pequeno conjunto de verbetes que trazem conhecimento sobre a costa brasileira (Amazônia Azul). O objetivo desta wiki é servir como uma base inicial de textos, escritos por especialistas, que versem sobre assuntos diversos referentes à Amazônia Azul.
Atualmente, a wiki conta com três conjuntos de verbetes:
- Biodiversidade: ambiente pelágico, conservação das espécies conhecidas, ecossistemas costeiros, mar profundo, microbiologia marinha; produção primária e zoologia (anelídeos marinhos, cnidários, moluscos, poríferos);
- Legislação e governança: constituição federal, definição dos espaços marinhos, gerenciamento costeiro, legislação pesqueira e maricultura, Marinha do Brasil, qualidade das águas, recursos do mar e unidades de conservação;
- Socioambiental: atividade petrolífera, colonização do Brasil, desastres ambientais no ambiente costeiro e marinho, erosão e sedimentação costeiras, esportes marítimos, geração de energia, mineração no mar, pesca e aquicultura, poluição e contaminação marinha, portos, transporte e navegação, turismo costeiro e urbanização do Brasil.
Acesso à wiki: Blue Amazon Brain Wiki
Artigo científico no qual a wiki é apresentada (por favor, cite esse artigo se você fizer uso dos verbetes da Wiki – Amazônia Azul):
- Pirozelli, P.; Castro, A. B. R.; Oliveira, A. L. C.; Oliveira, A. S.; Cação, F. N.; Silveira, I. C.; Campos, J. G. M.; Motheo, L. C.; Figueiredo, L. F.; Pellicer, L. F. A. O.; José, M. A.; José, M. M.; Ligabue, P. M.; Grava, R. S.; Tavares, R. M.; Matos, V. B.; Sym, Y. V.; Costa, A. H. R.; Brandão, A. A. F.; Mauá, D. D.; Cozman, F. G.; Peres, S. M. The BLue Amazon Brain (BLAB): A Modular Architecture of Services about the Brazilian Maritime Territory. Proceedings of the Workshop: AI Modeling Oceans and Climate Change (AIMOCC 2022), Vienna, 2022, p. 1-11. https://doi.org/10.48550/arXiv.2209.07928
* A construção da Wiki conta com a colaboração do Hub Lusófono da Década do Oceano.
Pontuação Automática de Redações (AES) do ENEM
Um novo benchmark para a pontuação automática de redações em português, composto por entradas associadas a metadados e organizadas em subconjuntos pré-estabelecidos de treino, validação e teste. A coleção é composta por 3.604 redações e paráfrases de redações, anotadas com identificador, tema, título, corpo do texto, conjunto de notas e ano.
Acesse a coleção de redações aqui.
Publicação científica na qual a coleção é apresetada (por favor, cite este artigo se você usar as redações desta coleção):
- Silveira, I.C., Barbosa, B., Mauá, D. D. A New Benchmark for Automatic Essay Scoring in Portuguese. In Proceedings of the 16th International Conference on Computational Processing of Portuguese, 2024. https://aclanthology.org/2024.propor-1.23
LegalUSP
A Universidade de São Paulo (USP) é uma das maiores e mais importantes instituições de ensino superior do Brasil. Com um orçamento anual de R$ 8,6 bilhões para 2024, a USP engloba 42 unidades de ensino e pesquisa distribuídas em 8 campi, localizados em 9 cidades. Essa vasta e diversificada estrutura torna seu conjunto de normas e regulamentos formalmente complexo e, muitas vezes, de difícil compreensão.
O LegalUSP é um corpus de documentos legais da Universidade de São Paulo, criado com o objetivo de facilitar o desenvolvimento de sistemas computacionais capazes de navegar e compreender essa rede de normas e regulamentos. O conjunto de dados é composto por 866 documentos extraídos do site oficial da universidade e convertidos em arquivos de texto, cobrindo o período de janeiro de 2023 a maio de 2024. Esses documentos incluem uma variedade de normas, como Normas Históricas, Estatuto, Regulamentos Gerais, Resoluções, Portarias, Regulamentos dos Órgãos e outros normativos.
Acesse o corpus aqui.