{"id":504,"date":"2024-04-20T00:52:27","date_gmt":"2024-04-20T02:52:27","guid":{"rendered":"https:\/\/sites.usp.br\/keml\/?page_id=504"},"modified":"2024-10-13T00:15:14","modified_gmt":"2024-10-13T02:15:14","slug":"conjuntos-de-dados","status":"publish","type":"page","link":"https:\/\/sites.usp.br\/keml\/conjuntos-de-dados\/","title":{"rendered":"Conjuntos de dados"},"content":{"rendered":"<h3>Pir\u00e1<\/h3>\n<div id=\"attachment_1080\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1080\" class=\"wp-image-1080 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_dataset.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1080\" class=\"wp-caption-text\">Imagem gerada por IA (copilot)<\/p><\/div>\n<p>O Pir\u00e1, em suas vers\u00f5es 1.0 e 2.0, foi constru\u00eddo com o objetivo principal de oferecer um conjunto de perguntas e respostas bil\u00edngue (portugu\u00eas-ingl\u00eas) que versasse sobre assuntos referentes \u00e0 Amaz\u00f4nia Azul (costa brasileira). Ele foi constru\u00eddo por pessoas, em um fluxo de trabalho sistem\u00e1tico. O conjunto de dados Pir\u00e1 tamb\u00e9m conta com v\u00e1rios recursos de dados associados criados por pessoas (avalia\u00e7\u00e3o de complexidade, cria\u00e7\u00e3o de par\u00e1frases e revis\u00e3o de tradu\u00e7\u00e3o portugu\u00eas-ingl\u00eas) e tamb\u00e9m de forma autom\u00e1tica (tradu\u00e7\u00f5es e mapeamento do conjunto para quest\u00f5es de m\u00faltipla escolha).<\/p>\n<p>Uma caracter\u00edstica importante do conjunto Pir\u00e1 \u00e9 que parte dele diz respeito a conte\u00fado de pesquisa cient\u00edfica, configurando-se como um recurso que usa linguagem altamente especializada e com alta complexidade.<\/p>\n<p>O procedimento sistem\u00e1tico de cria\u00e7\u00e3o do Pir\u00e1, vers\u00e3o 1.0, est\u00e1 ilustrado na figura abaixo:<\/p>\n<div id=\"attachment_1078\" style=\"width: 553px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1078\" class=\"wp-image-1078\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2-300x151.png\" alt=\"\" width=\"543\" height=\"273\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2-300x151.png 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2-1024x514.png 1024w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2-768x386.png 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2-600x300.png 600w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2-400x201.png 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/figura1-QAdataset-2.png 1280w\" sizes=\"auto, (max-width: 543px) 100vw, 543px\" \/><\/a><p id=\"caption-attachment-1078\" class=\"wp-caption-text\">Vis\u00e3o geral do processo de cria\u00e7\u00e3o do Pir\u00e1 1.0 (Pirozelli et al., 2021)<\/p><\/div>\n<p>O conjunto de perguntas e respostas Pir\u00e1 1.0 cont\u00e9m 2261 pares pergunta\/resposta, em portugu\u00eas e ingl\u00eas, com informa\u00e7\u00f5es associadas:\u00a0 se a quest\u00e3o \u00e9 gen\u00e9rica; se a quest\u00e3o pode ser respondida estritamente com informa\u00e7\u00f5es fornecidas no texto usado para formul\u00e1-la; se a quest\u00e3o faz sentido; se a quest\u00e3o \u00e9 dif\u00edcil de responder; se duas respostas fornecidas por pessoas diferentes para a mesma quest\u00e3o s\u00e3o equivalentes; qual \u00e9 o tipo (wh-questions) da quest\u00e3o; par\u00e1frases associadas (geradas por pessoas).<\/p>\n<p>O conjunto Pir\u00e1 2.0\u00a0 \u00e9 revisado em rela\u00e7\u00e3o a quest\u00f5es de ortografia e formata\u00e7\u00e3o de estruturas de dados, possui tr\u00eas quest\u00f5es a menos que a vers\u00e3o 1.0, retiradas por decisa\u00f5 de curadoria. Possui rotula\u00e7\u00e3o que o habilita como um &#8220;answer triggering benchmark&#8221;, possui quest\u00f5es de m\u00faltipla escolhas derivadas das quest\u00f5es originais, e um conjunto de par\u00e1frases geradas automaticamente.<\/p>\n<p>Acesso ao conjunto de dados Pir\u00e1: <a href=\"https:\/\/github.com\/C4AI\/Pira\/tree\/main\/Data\" target=\"_blank\" rel=\"noopener\">Github<\/a>,\u00a0<a href=\"https:\/\/huggingface.co\/datasets\/paulopirozelli\/pira\" target=\"_blank\" rel=\"noopener\">Hugging Face.<\/a><\/p>\n<p>Artigos cient\u00edficos que descrevem o Pir\u00e1 (por favor, cite pelo menos um desses artigos se voc\u00ea fizer uso de algum recurso de dados oferecido no Pir\u00e1):<\/p>\n<ul>\n<li>Pirozelli, P.; Jos\u00e9, M. M.; Silveira, I. C.; Nakasato, F.; Peres, S. M.; Brand\u00e3o, A. A. F.; Costa, A. H. R.; Cozman, F. G.\u00a0<strong>Benchmarks for Pir\u00e1 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change<\/strong>. Data Intelligence (MIT Press Direct 2024), 2024. v.6. p.29-63.\u00a0<a href=\"https:\/\/doi.org\/10.1162\/dint_a_00245\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.1162\/dint_a_00245<\/a><\/li>\n<li>Paschoal, A. F. A.; Pirozelli, P.; Freire, V.; Delgado, K. V.; Peres, S. M.; Jos\u00e9, M. M.; Nakasato, F.; Oliveira, A. S.; Brand\u00e3o, A. A. F.; Costa, A. H. R.; Cozman, F. G.\u00a0<strong>Pir\u00e1: A Bilingual Portuguese-English Dataset for Question-Answering about the Ocean.<\/strong>\u00a0In Proceedings of the 30th ACM International Conference on Information &amp; Knowledge Management (CIKM\u201921), Queensland Australia, 2021. p. 4544\u20134553.\u00a0\u00a0<a href=\"https:\/\/doi.org\/10.1145\/3459637.3482012\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.1145\/3459637.3482012<\/a><\/li>\n<\/ul>\n<p>* A palavra Pir\u00e1 significa \u201cpeixe\u201d em Tupi-Guarani, uma fam\u00edlia de l\u00ednguas ind\u00edgenas da Am\u00e9rica do Sul que influenciou fortemente o portugu\u00eas brasileiro.<\/p>\n<hr \/>\n<h3>Cocoruta<\/h3>\n<div id=\"attachment_1085\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1085\" class=\"wp-image-1085 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-D.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1085\" class=\"wp-caption-text\">Imagem criada por IA (Copilot)<\/p><\/div>\n<p>O Cocoruta, em suas vers\u00f5es 1.0 e 2.0, oferece um conjunto de perguntas e respostas criado a partir dos corpora associados. As perguntas e respostas foram geradas por grandes modelos de linguagem e est\u00e3o disponibilizadas sob a estrutura: contexto &#8211; pergunta &#8211; resposta. S\u00e3o dois conjuntos de perguntas e respostas:<\/p>\n<ul>\n<li><strong>Conjunto Cocoruta 1.0:<\/strong> conta com 16.000 contextos-perguntas-respostas, elaborado sobre um subconjunto de documentos do corpus Cocoruta 1.0, especialmente filtrado para fazer refer\u00eancia a assuntos da Amaz\u00f4nia Azul (costa brasileira);<\/li>\n<li><strong>Conjunto Cocoruta 2.0:<\/strong> elaborado sobre os documentos do corpus Cocoruta 2.0. Neste caso, h\u00e1 dois subconjuntos associados. O primeiro foi gerado sobre o corpus completo e o segundo foi gerado apenas sobre o subconjunto de documentos filtrados via express\u00e3o regular, de forma que tem perguntas e respostas associadas a documentos que versam, em algum aspecto, sobre a Amaz\u00f4nia Azul (costa brasileira).<\/li>\n<\/ul>\n<p>Acesso ao conjunto de perguntas e respostas: Cocoruta 1.0, entre em <a href=\"https:\/\/sites.usp.br\/keml\/contato\/\">contato;<\/a> Cocoruta 2.0, via <a href=\"https:\/\/huggingface.co\/felipeoes\" target=\"_blank\" rel=\"noopener\">Hugging Face<\/a>.<\/p>\n<p>Artigo cient\u00edfico relacionado ao Cocoruta 1.0 (por favor, cite esse artigo se voc\u00ea fizer uso do conjunto Cocoruta 1.0):<\/p>\n<ul>\n<li>Esp\u00edrito Santo, F. O.; Peres, S.M.; Gramacho, G. S.; Brand\u00e3o, A. A. F.; Cozman, F. G. <strong>Legal Document-Based, Domain-Driven Q&amp;A System: LLMs in Perspective.<\/strong> In Proceedings of International Joint Conference on Neural Networks (IJCNN 2024), Jap\u00e3o, 2024.<\/li>\n<\/ul>\n<p>* \u201cCocoruta\u201d \u00e9\u00a0 o nome dado a uma esp\u00e9cie de p\u00e1ssaro end\u00eamica do arquip\u00e9lago de Fernando de Noronha (Brasil), atualmente amea\u00e7ada de extin\u00e7\u00e3o. O nome do recurso foi escolhido como forma de homenagear a biodiversidade e ajudar na defesa da conserva\u00e7\u00e3o da Amaz\u00f4nia Azul (costa brasileira).<\/p>\n<hr \/>\n<h3>ArGPT<\/h3>\n<p><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos.jpeg\"><img loading=\"lazy\" decoding=\"async\" class=\"size-medium wp-image-1089 alignleft\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/argumentos-logicos.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><span lang=\"PT-BR\">Conjuntos de dados de argumenta\u00e7\u00e3o costumam privilegiar argumentos de boa qualidade, o que torna dif\u00edcil treinar modelos capazes de diferenciar bons e maus argumentos. O <b>ArGPT<\/b> \u00e9 um conjunto de ensaios argumentativos criado com a ajuda do ChatGPT.\u00a0<\/span><span lang=\"PT-BR\">Utilizando uma estrutura de prompt que simula a intera\u00e7\u00e3o entre aluno e professor, o ArGPT tem como peculiaridade possuir argumentos que tentam justificar conclus\u00f5es notoriamente falsas:<\/span><\/p>\n<p style=\"text-align: right;\"><span lang=\"PT-BR\">\u201cexplique como os escritos de Hegel na idade m\u00e9dia ajudaram a criar a mentalidade colonialista do s\u00e9culo 16\u201d. <\/span><\/p>\n<p><span lang=\"PT-BR\">O alinhamento do ChatGPT, que busca oferecer respostas de acordo com as instru\u00e7\u00f5es do usu\u00e1rio, leva-o a elaborar uma justificativa mesmo nesses casos. Com isso, foi poss\u00edvel gerar tr\u00eas tipos de argumentos: <\/span><\/p>\n<ul>\n<li><span lang=\"PT-BR\">argumentos bons, que contam com uma argumenta\u00e7\u00e3o s\u00f3lida (alta coer\u00eancia) e que justificam uma afirma\u00e7\u00e3o verdadeira; <\/span><\/li>\n<li><span lang=\"PT-BR\">argumentos ruins, que exibem uma argumenta\u00e7\u00e3o falha, independentemente de defenderem algo verdadeiro ou n\u00e3o; <\/span><\/li>\n<li><span lang=\"PT-BR\">argumentos feios, que geram uma justificativa convincente para afirma\u00e7\u00f5es falsas. <\/span><\/li>\n<\/ul>\n<p><span lang=\"PT-BR\">O ArGPT cont\u00e9m 168 ensaios, dos quais 81 foram categorizados como \u201cRuins\u201d, 50 como &#8220;Bons&#8221; e 37 como &#8220;Feios&#8221;. <\/span><\/p>\n<p><span lang=\"PT-BR\">Em rela\u00e7\u00e3o \u00e0 anota\u00e7\u00e3o, o conjunto de dados diferencia entre partes argumentativas e n\u00e3o argumentativas do texto, classificando cada componente como premissa ou afirma\u00e7\u00e3o principal \u2014 definida como a conclus\u00e3o principal do texto \u2014, e usando tanto rela\u00e7\u00f5es de suporte como de ataque. A estrutura de argumenta\u00e7\u00e3o resultante \u00e9 a de um grafo.<\/span><\/p>\n<p>O acesso ao ArGPT por ser feito via <a href=\"https:\/\/github.com\/C4AI\/ArGPT\/tree\/main\" target=\"_blank\" rel=\"noopener\">GitHub<\/a>.<\/p>\n<p>Artigo cient\u00edfico no qual o ArGPT \u00e9 discutido (por favor, cite esse artigo se voc\u00ea fizer uso deste conjunto de argumenta\u00e7\u00e3o):<\/p>\n<ul>\n<li>Rocha, V. H. N., Silveira, I. C., Pirozelli, P., Mau\u00e1, D. D., Cozman, F. G.\u00a0<strong>Assessing Good, Bad and Ugly Arguments Generated by ChatGPT: a New Dataset, its Methodology and Associated Tasks.<\/strong>\u00a0In Proceedings of the 22nd EPIA Conference on Artificial Intelligence \u2013 Progress in Artificial Intelligence (EPIA 2023), Faial Island, Azores, 2023. v. 14115. p. 428\u2013440. doi:\u00a0<a href=\"https:\/\/doi.org\/10.1007\/978-3-031-49008-8_34\" target=\"_blank\" rel=\"noopener\">10.1007\/978-3-031-49008-8_34<\/a><\/li>\n<\/ul>\n<hr \/>\n<h3>BLAB Wiki<\/h3>\n<div id=\"attachment_1097\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1097\" class=\"wp-image-1097 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-A.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1097\" class=\"wp-caption-text\">Imagem gerada por IA (Copilot)<\/p><\/div>\n<p>A partir dos verbetes dispon\u00edveis na BLAB Wiki, n\u00f3s geramos um pequeno conjunto de perguntas e respostas usando o modelo de linguagem GEMINI 1.0. O conjunto conta com 114 triplas &#8220;contexto-pergunta-resposta&#8221; na l\u00edngua portuguesa.<\/p>\n<p>Trata-se de um conjunto de conte\u00fado orientado a dom\u00ednio por\u00e9m em linguagem acess\u00edvel para leigos. Exemplos de pergunta-resposta presente nesse conjunto de dados:<\/p>\n<ul>\n<li><em>Pergunta<\/em>: O que \u00e9 a Amaz\u00f4nia Azul?<\/li>\n<li><em>Resposta<\/em>:\u00a0 A Amaz\u00f4nia Azul \u00e9 o nome dado ao territ\u00f3rio mar\u00edtimo brasileiro, que se estende por 200 milhas n\u00e1uticas a partir da costa, ao longo de todo o litoral, al\u00e9m da \u00e1rea de extens\u00e3o da plataforma continental. Inclui tamb\u00e9m as \u00e1reas ao redor das ilhas oce\u00e2nicas, totalizando cerca de 3,5 milh\u00f5es de km\u00b2 e com potencial de expans\u00e3o para 4,5 milh\u00f5es de km\u00b2, caso seja aprovada a solicita\u00e7\u00e3o de extens\u00e3o dos limites da Plataforma Continental. \u00c9 um espa\u00e7o mar\u00edtimo de explora\u00e7\u00e3o econ\u00f4mica exclusiva do Brasil.<\/li>\n<li><em>Pergunta<\/em>: Qual \u00e9 o objetivo da Pol\u00ed\u00adtica Nacional para os Recursos do Mar (PNRM)?<\/li>\n<li><em>Resposta<\/em>: A Pol\u00ed\u00adtica Nacional para os Recursos do Mar (PNRM) tem como objetivo principal orientar o desenvolvimento das atividades que buscam a efetiva utiliza\u00e7\u00e3o, explora\u00e7\u00e3o e aproveitamento dos recursos vivos, minerais e energ\u00e9ticos do Mar Territorial (MT), da Zona Econ\u00f4mica Exclusiva (ZEE) e da Plataforma Continental (PC). A PNRM visa garantir que essa explora\u00e7\u00e3o seja feita de acordo com os interesses nacionais, de forma racional e sustent\u00e1vel, promovendo o desenvolvimento socioecon\u00f4mico do pa\u00eds, a gera\u00e7\u00e3o de emprego e renda e a inclus\u00e3o social.<\/li>\n<\/ul>\n<p>Acesso ao conjunto de perguntas e respostas pode ser feito <a href=\"https:\/\/huggingface.co\/datasets\/felipeoes\/blab_wiki-gemini1-5?row=7\" target=\"_blank\" rel=\"noopener\">aqui<\/a>.<\/p>\n<p>Artigo cient\u00edfico no qual a wiki \u00e9 apresentada (por favor, cite esse artigo se voc\u00ea fizer uso do conjunto de perguntas-respostas da BLAB Wiki):<\/p>\n<ul>\n<li>Pirozelli, P.; Castro, A. B. R.; Oliveira, A. L. C.; Oliveira, A. S.; Ca\u00e7\u00e3o, F. N.; Silveira, I. C.; Campos, J. G. M.; Motheo, L. C.; Figueiredo, L. F.; Pellicer, L. F. A. O.; Jos\u00e9, M. A.; Jos\u00e9, M. M.; Ligabue, P. M.; Grava, R. S.; Tavares, R. M.; Matos, V. B.; Sym, Y. V.; Costa, A. H. R.; Brand\u00e3o, A. A. F.; Mau\u00e1, D. D.; Cozman, F. G.; Peres, S. M.\u00a0<strong>The BLue Amazon Brain (BLAB): A Modular Architecture of Services about the Brazilian Maritime Territory.<\/strong>\u00a0Proceedings of the Workshop: AI Modeling Oceans and Climate Change (AIMOCC 2022), Vienna, 2022, p. 1-11.\u00a0<a href=\"https:\/\/doi.org\/10.48550\/arXiv.2209.07928\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.48550\/arXiv.2209.07928<\/a><\/li>\n<\/ul>\n<p>* A constru\u00e7\u00e3o da Wiki conta com a colabora\u00e7\u00e3o do <a href=\"https:\/\/sites.usp.br\/huboceano\/sobre-pagina\/\" target=\"_blank\" rel=\"noopener\">Hub Lus\u00f3fono da D\u00e9cada do Oceano<\/a>.<\/p>\n<hr \/>\n<h3><\/h3>\n<h3>mRAT-SQL+GAP e mRAT-SQL-FIT<\/h3>\n<div id=\"attachment_1099\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1099\" class=\"wp-image-1099 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/SQL-1.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1099\" class=\"wp-caption-text\">Imagem gerada por IA (Copilot)<\/p><\/div>\n<p>A tradu\u00e7\u00e3o de quest\u00f5es de linguagem natural para consultas SQL (NL2SQL) tem atra\u00eddo aten\u00e7\u00e3o crescente, em particular em conex\u00e3o com transformers e modelos de linguagem similares. Os transformers, no contexto de aprendizado profundo, melhoraram drasticamente os sistemas que respondem automaticamente \u00e0s perguntas em linguagem natural. Um grande n\u00famero de t\u00e9cnicas s\u00e3o voltadas para a l\u00edngua inglesa. N\u00f3s investigamos a tradu\u00e7\u00e3o para SQL quando as perguntas de entrada s\u00e3o fornecidas em outros idiomas.<\/p>\n<p>Nossos experimentos exp\u00f5em fen\u00f4menos interessantes que surgem quando idiomas diferentes do ingl\u00eas s\u00e3o o foco da aten\u00e7\u00e3o. Nossos melhores modelos s\u00e3o ajustados usando um conjunto de dados Spider aumentado em quatro idiomas simultaneamente: ingl\u00eas, portugu\u00eas, espanhol e franc\u00eas.<\/p>\n<p>Acesse o conjunto de dados aumentado no <a href=\"https:\/\/github.com\/C4AI\/gap-text2sql\" target=\"_blank\" rel=\"noopener\">Github<\/a>.<\/p>\n<p>Artigos cient\u00edficos que descrevem o estudo completo (por favor, cite pelo menos um desses artigos se voc\u00ea fizer uso de conjunto de dados aumentado constru\u00eddo em nosso estudo):<\/p>\n<ul>\n<li>Jos\u00e9, M. M.; Jos\u00e9, M.A.; Mau\u00e1, D.D.; Cozman, F.G.\u00a0<strong>Integrating Question Answering and Text-to-SQL in Portuguese.<\/strong>\u00a0In Proceedings of the 15th International Conference Computational Processing of the Portuguese Language (PROPOR 2022), Fortaleza, 2022. v.13208. p.278\u2013287.\u00a0<a href=\"https:\/\/doi.org\/10.1007\/978-3-030-98305-5_26\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.1007\/978-3-030-98305-5_26<\/a><\/li>\n<li>Jos\u00e9, M. A.; Cozman, F. G.\u00a0<strong>mRAT-SQL+GAP: A Portuguese Text-to-SQL Transformer.<\/strong>\u00a0In Proceedings of the 10th Brazilian Conference on Intelligent Systems (BRACIS 2021), Virtual Event, 2021, v.13074. p. 511\u2013525.\u00a0<a href=\"https:\/\/doi.org\/10.1007\/978-3-030-91699-2_35\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.1007\/978-3-030-91699-2_35<\/a><\/li>\n<\/ul>\n<hr \/>\n<h3>LegalUSP<\/h3>\n<div id=\"attachment_1610\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1610\" class=\"wp-image-1610 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-qa.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1610\" class=\"wp-caption-text\">Imagem gerada por IA (Copilot)<\/p><\/div>\n<p>O\u00a0<strong>LegalUSP<\/strong> \u00e9 um corpus de documentos legais da Universidade de S\u00e3o Paulo, criado com o objetivo de facilitar o desenvolvimento de sistemas computacionais capazes de navegar e compreender essa rede de normas e regulamentos. A partir desse corpus, foi criado um conjunto de perguntas e respostas com o aux\u00edlio do GPT-4. Inicialmente, os documentos foram divididos em trechos menores (chunks), facilitando a recupera\u00e7\u00e3o da informa\u00e7\u00e3o. Em seguida, foram gerados 592 pares de perguntas e respostas, cada um associado a um trecho espec\u00edfico que cont\u00e9m a resposta correspondente. Para ampliar a variabilidade lingu\u00edstica, um segundo conjunto de perguntas e respostas foi criado, reescrevendo as perguntas originais tamb\u00e9m com o aux\u00edlio do GPT-4.<\/p>\n<p>Acesse o conjunto de perguntas e respostas <a href=\"https:\/\/github.com\/gustavokpc\/RetrievalAugmentedGeneration\" target=\"_blank\" rel=\"noopener\">aqui<\/a>.<\/p>\n<p>&nbsp;<\/p>\n<hr \/>\n<h6 style=\"text-align: right;\"><\/h6>\n","protected":false},"excerpt":{"rendered":"<p>Pir\u00e1 O Pir\u00e1, em suas vers\u00f5es 1.0 e 2.0, foi constru\u00eddo com o objetivo principal de oferecer um conjunto de perguntas e respostas bil\u00edngue (portugu\u00eas-ingl\u00eas) que versasse sobre assuntos referentes \u00e0 Amaz\u00f4nia Azul (costa brasileira). Ele foi constru\u00eddo por pessoas, em um fluxo de trabalho sistem\u00e1tico. O conjunto de dados Pir\u00e1 tamb\u00e9m conta com v\u00e1rios<a href=\"https:\/\/sites.usp.br\/keml\/conjuntos-de-dados\/\">[&#8230;]<\/a><\/p>\n","protected":false},"author":24022,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"inline_featured_image":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":"","_links_to":"","_links_to_target":""},"class_list":["post-504","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/504","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/users\/24022"}],"replies":[{"embeddable":true,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/comments?post=504"}],"version-history":[{"count":4,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/504\/revisions"}],"predecessor-version":[{"id":1673,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/504\/revisions\/1673"}],"wp:attachment":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/media?parent=504"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}