Pirá
O Pirá, em suas versões 1.0 e 2.0, foi construído com o objetivo principal de oferecer um conjunto de perguntas e respostas bilíngue (português-inglês) que versasse sobre assuntos referentes à Amazônia Azul (costa brasileira). Ele foi construído por pessoas, em um fluxo de trabalho sistemático. O conjunto de dados Pirá também conta com vários recursos de dados associados criados por pessoas (avaliação de complexidade, criação de paráfrases e revisão de tradução português-inglês) e também de forma automática (traduções e mapeamento do conjunto para questões de múltipla escolha).
Uma característica importante do conjunto Pirá é que parte dele diz respeito a conteúdo de pesquisa científica, configurando-se como um recurso que usa linguagem altamente especializada e com alta complexidade.
O procedimento sistemático de criação do Pirá, versão 1.0, está ilustrado na figura abaixo:
O conjunto de perguntas e respostas Pirá 1.0 contém 2261 pares pergunta/resposta, em português e inglês, com informações associadas: se a questão é genérica; se a questão pode ser respondida estritamente com informações fornecidas no texto usado para formulá-la; se a questão faz sentido; se a questão é difícil de responder; se duas respostas fornecidas por pessoas diferentes para a mesma questão são equivalentes; qual é o tipo (wh-questions) da questão; paráfrases associadas (geradas por pessoas).
O conjunto Pirá 2.0 é revisado em relação a questões de ortografia e formatação de estruturas de dados, possui três questões a menos que a versão 1.0, retiradas por decisaõ de curadoria. Possui rotulação que o habilita como um “answer triggering benchmark”, possui questões de múltipla escolhas derivadas das questões originais, e um conjunto de paráfrases geradas automaticamente.
Acesso ao conjunto de dados Pirá: Github, Hugging Face.
Artigos científicos que descrevem o Pirá (por favor, cite pelo menos um desses artigos se você fizer uso de algum recurso de dados oferecido no Pirá):
- Pirozelli, P.; José, M. M.; Silveira, I. C.; Nakasato, F.; Peres, S. M.; Brandão, A. A. F.; Costa, A. H. R.; Cozman, F. G. Benchmarks for Pirá 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change. Data Intelligence (MIT Press Direct 2024), 2024. v.6. p.29-63. https://doi.org/10.1162/dint_a_00245
- Paschoal, A. F. A.; Pirozelli, P.; Freire, V.; Delgado, K. V.; Peres, S. M.; José, M. M.; Nakasato, F.; Oliveira, A. S.; Brandão, A. A. F.; Costa, A. H. R.; Cozman, F. G. Pirá: A Bilingual Portuguese-English Dataset for Question-Answering about the Ocean. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management (CIKM’21), Queensland Australia, 2021. p. 4544–4553. https://doi.org/10.1145/3459637.3482012
* A palavra Pirá significa “peixe” em Tupi-Guarani, uma família de línguas indígenas da América do Sul que influenciou fortemente o português brasileiro.
Cocoruta
O Cocoruta, em suas versões 1.0 e 2.0, oferece um conjunto de perguntas e respostas criado a partir dos corpora associados. As perguntas e respostas foram geradas por grandes modelos de linguagem e estão disponibilizadas sob a estrutura: contexto – pergunta – resposta. São dois conjuntos de perguntas e respostas:
- Conjunto Cocoruta 1.0: conta com 16.000 contextos-perguntas-respostas, elaborado sobre um subconjunto de documentos do corpus Cocoruta 1.0, especialmente filtrado para fazer referência a assuntos da Amazônia Azul (costa brasileira);
- Conjunto Cocoruta 2.0: elaborado sobre os documentos do corpus Cocoruta 2.0. Neste caso, há dois subconjuntos associados. O primeiro foi gerado sobre o corpus completo e o segundo foi gerado apenas sobre o subconjunto de documentos filtrados via expressão regular, de forma que tem perguntas e respostas associadas a documentos que versam, em algum aspecto, sobre a Amazônia Azul (costa brasileira).
Acesso ao conjunto de perguntas e respostas: Cocoruta 1.0, entre em contato; Cocoruta 2.0, via Hugging Face.
Artigo científico relacionado ao Cocoruta 1.0 (por favor, cite esse artigo se você fizer uso do conjunto Cocoruta 1.0):
- Espírito Santo, F. O.; Peres, S.M.; Gramacho, G. S.; Brandão, A. A. F.; Cozman, F. G. Legal Document-Based, Domain-Driven Q&A System: LLMs in Perspective. In Proceedings of International Joint Conference on Neural Networks (IJCNN 2024), Japão, 2024.
* “Cocoruta” é o nome dado a uma espécie de pássaro endêmica do arquipélago de Fernando de Noronha (Brasil), atualmente ameaçada de extinção. O nome do recurso foi escolhido como forma de homenagear a biodiversidade e ajudar na defesa da conservação da Amazônia Azul (costa brasileira).
ArGPT
Conjuntos de dados de argumentação costumam privilegiar argumentos de boa qualidade, o que torna difícil treinar modelos capazes de diferenciar bons e maus argumentos. O ArGPT é um conjunto de ensaios argumentativos criado com a ajuda do ChatGPT. Utilizando uma estrutura de prompt que simula a interação entre aluno e professor, o ArGPT tem como peculiaridade possuir argumentos que tentam justificar conclusões notoriamente falsas:
“explique como os escritos de Hegel na idade média ajudaram a criar a mentalidade colonialista do século 16”.
O alinhamento do ChatGPT, que busca oferecer respostas de acordo com as instruções do usuário, leva-o a elaborar uma justificativa mesmo nesses casos. Com isso, foi possível gerar três tipos de argumentos:
- argumentos bons, que contam com uma argumentação sólida (alta coerência) e que justificam uma afirmação verdadeira;
- argumentos ruins, que exibem uma argumentação falha, independentemente de defenderem algo verdadeiro ou não;
- argumentos feios, que geram uma justificativa convincente para afirmações falsas.
O ArGPT contém 168 ensaios, dos quais 81 foram categorizados como “Ruins”, 50 como “Bons” e 37 como “Feios”.
Em relação à anotação, o conjunto de dados diferencia entre partes argumentativas e não argumentativas do texto, classificando cada componente como premissa ou afirmação principal — definida como a conclusão principal do texto —, e usando tanto relações de suporte como de ataque. A estrutura de argumentação resultante é a de um grafo.
O acesso ao ArGPT por ser feito via GitHub.
Artigo científico no qual o ArGPT é discutido (por favor, cite esse artigo se você fizer uso deste conjunto de argumentação):
- Rocha, V. H. N., Silveira, I. C., Pirozelli, P., Mauá, D. D., Cozman, F. G. Assessing Good, Bad and Ugly Arguments Generated by ChatGPT: a New Dataset, its Methodology and Associated Tasks. In Proceedings of the 22nd EPIA Conference on Artificial Intelligence – Progress in Artificial Intelligence (EPIA 2023), Faial Island, Azores, 2023. v. 14115. p. 428–440. doi: 10.1007/978-3-031-49008-8_34
BLAB Wiki
A partir dos verbetes disponíveis na BLAB Wiki, nós geramos um pequeno conjunto de perguntas e respostas usando o modelo de linguagem GEMINI 1.0. O conjunto conta com 114 triplas “contexto-pergunta-resposta” na língua portuguesa.
Trata-se de um conjunto de conteúdo orientado a domínio porém em linguagem acessível para leigos. Exemplos de pergunta-resposta presente nesse conjunto de dados:
- Pergunta: O que é a Amazônia Azul?
- Resposta: A Amazônia Azul é o nome dado ao território marítimo brasileiro, que se estende por 200 milhas náuticas a partir da costa, ao longo de todo o litoral, além da área de extensão da plataforma continental. Inclui também as áreas ao redor das ilhas oceânicas, totalizando cerca de 3,5 milhões de km² e com potencial de expansão para 4,5 milhões de km², caso seja aprovada a solicitação de extensão dos limites da Plataforma Continental. É um espaço marítimo de exploração econômica exclusiva do Brasil.
- Pergunta: Qual é o objetivo da Política Nacional para os Recursos do Mar (PNRM)?
- Resposta: A Política Nacional para os Recursos do Mar (PNRM) tem como objetivo principal orientar o desenvolvimento das atividades que buscam a efetiva utilização, exploração e aproveitamento dos recursos vivos, minerais e energéticos do Mar Territorial (MT), da Zona Econômica Exclusiva (ZEE) e da Plataforma Continental (PC). A PNRM visa garantir que essa exploração seja feita de acordo com os interesses nacionais, de forma racional e sustentável, promovendo o desenvolvimento socioeconômico do país, a geração de emprego e renda e a inclusão social.
Acesso ao conjunto de perguntas e respostas pode ser feito aqui.
Artigo científico no qual a wiki é apresentada (por favor, cite esse artigo se você fizer uso do conjunto de perguntas-respostas da BLAB Wiki):
- Pirozelli, P.; Castro, A. B. R.; Oliveira, A. L. C.; Oliveira, A. S.; Cação, F. N.; Silveira, I. C.; Campos, J. G. M.; Motheo, L. C.; Figueiredo, L. F.; Pellicer, L. F. A. O.; José, M. A.; José, M. M.; Ligabue, P. M.; Grava, R. S.; Tavares, R. M.; Matos, V. B.; Sym, Y. V.; Costa, A. H. R.; Brandão, A. A. F.; Mauá, D. D.; Cozman, F. G.; Peres, S. M. The BLue Amazon Brain (BLAB): A Modular Architecture of Services about the Brazilian Maritime Territory. Proceedings of the Workshop: AI Modeling Oceans and Climate Change (AIMOCC 2022), Vienna, 2022, p. 1-11. https://doi.org/10.48550/arXiv.2209.07928
* A construção da Wiki conta com a colaboração do Hub Lusófono da Década do Oceano.
mRAT-SQL+GAP e mRAT-SQL-FIT
A tradução de questões de linguagem natural para consultas SQL (NL2SQL) tem atraído atenção crescente, em particular em conexão com transformers e modelos de linguagem similares. Os transformers, no contexto de aprendizado profundo, melhoraram drasticamente os sistemas que respondem automaticamente às perguntas em linguagem natural. Um grande número de técnicas são voltadas para a língua inglesa. Nós investigamos a tradução para SQL quando as perguntas de entrada são fornecidas em outros idiomas.
Nossos experimentos expõem fenômenos interessantes que surgem quando idiomas diferentes do inglês são o foco da atenção. Nossos melhores modelos são ajustados usando um conjunto de dados Spider aumentado em quatro idiomas simultaneamente: inglês, português, espanhol e francês.
Acesse o conjunto de dados aumentado no Github.
Artigos científicos que descrevem o estudo completo (por favor, cite pelo menos um desses artigos se você fizer uso de conjunto de dados aumentado construído em nosso estudo):
- José, M. M.; José, M.A.; Mauá, D.D.; Cozman, F.G. Integrating Question Answering and Text-to-SQL in Portuguese. In Proceedings of the 15th International Conference Computational Processing of the Portuguese Language (PROPOR 2022), Fortaleza, 2022. v.13208. p.278–287. https://doi.org/10.1007/978-3-030-98305-5_26
- José, M. A.; Cozman, F. G. mRAT-SQL+GAP: A Portuguese Text-to-SQL Transformer. In Proceedings of the 10th Brazilian Conference on Intelligent Systems (BRACIS 2021), Virtual Event, 2021, v.13074. p. 511–525. https://doi.org/10.1007/978-3-030-91699-2_35
LegalUSP
O LegalUSP é um corpus de documentos legais da Universidade de São Paulo, criado com o objetivo de facilitar o desenvolvimento de sistemas computacionais capazes de navegar e compreender essa rede de normas e regulamentos. A partir desse corpus, foi criado um conjunto de perguntas e respostas com o auxílio do GPT-4. Inicialmente, os documentos foram divididos em trechos menores (chunks), facilitando a recuperação da informação. Em seguida, foram gerados 592 pares de perguntas e respostas, cada um associado a um trecho específico que contém a resposta correspondente. Para ampliar a variabilidade linguística, um segundo conjunto de perguntas e respostas foi criado, reescrevendo as perguntas originais também com o auxílio do GPT-4.
Acesse o conjunto de perguntas e respostas aqui.