{"id":506,"date":"2024-04-20T00:52:43","date_gmt":"2024-04-20T02:52:43","guid":{"rendered":"https:\/\/sites.usp.br\/keml\/?page_id=506"},"modified":"2024-09-22T00:57:46","modified_gmt":"2024-09-22T02:57:46","slug":"corpora","status":"publish","type":"page","link":"https:\/\/sites.usp.br\/keml\/corpora\/","title":{"rendered":"Corpora"},"content":{"rendered":"<h6 style=\"text-align: right;\"><\/h6>\n<h3><strong>Pir\u00e1<\/strong><\/h3>\n<div id=\"attachment_1068\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1068\" class=\"wp-image-1068 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/pira_corpus.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1068\" class=\"wp-caption-text\">Imagem gerada por IA (Copilot)<\/p><\/div>\n<p>O Pir\u00e1, em suas vers\u00f5es 1.0 e 2.0, \u00e9 um recurso que conta com corpora e conjunto de perguntas e respostas. Embora o recurso tenha j\u00e1 duas vers\u00f5es, a dupla de corpora \u00e9 comum para essas vers\u00f5es e est\u00e1 organizada da seguinte forma:<\/p>\n<ul>\n<li><strong>corpus 1:<\/strong>\u00a0 3.891 resumos de artigos cient\u00edficos que relatam pesquisas realizadas em assuntos relacionados \u00e0 costa brasileira, extra\u00eddos do indexador <a href=\"https:\/\/www.scopus.com\/search\/form.uri?display=basic\" target=\"_blank\" rel=\"noopener\">Scopus<\/a>. Os resumos foram escolhidos a partir de um filtro realizado mediante uma express\u00e3o regular de busca contendo palavras-chave relacionadas \u00e0 costa brasileira. Dispon\u00edveis em ingl\u00eas e portugu\u00eas.<\/li>\n<li><strong>corpus 2:<\/strong> 189 pequenos trechos de dois relat\u00f3rios sobre o oceano global organizados pela Na\u00e7\u00f5es Unidades (<a href=\"https:\/\/www.un.org\/regularprocess\/content\/first-world-ocean-assessment\" target=\"_blank\" rel=\"nofollow noopener\">World Ocean Assessment I<\/a>\u00a0and\u00a0<a href=\"https:\/\/www.un.org\/regularprocess\/woa2launch\" target=\"_blank\" rel=\"nofollow noopener\">World Ocean Assessment II<\/a>). Os trechos foram escolhidos manualmente. Dispon\u00edveis em ingl\u00eas e portugu\u00eas.<\/li>\n<\/ul>\n<p>Acesso ao corpus Pir\u00e1: <a href=\"https:\/\/github.com\/C4AI\/Pira\/tree\/main\/Data\" target=\"_blank\" rel=\"noopener\">Github<\/a>, <a href=\"https:\/\/huggingface.co\/datasets\/paulopirozelli\/pira\" target=\"_blank\" rel=\"noopener\">Hugging Face.<\/a><\/p>\n<p>Artigos cient\u00edficos que descrevem o Pir\u00e1 (por favor, cite pelo menos um desses artigos se voc\u00ea fizer uso dos corpora associados ao Pir\u00e1):<\/p>\n<ul>\n<li>Pirozelli, P.; Jos\u00e9, M. M.; Silveira, I. C.; Nakasato, F.; Peres, S. M.; Brand\u00e3o, A. A. F.; Costa, A. H. R.; Cozman, F. G.\u00a0<strong>Benchmarks for Pir\u00e1 2.0, a Reading Comprehension Dataset about the Ocean, the Brazilian Coast, and Climate Change<\/strong>. Data Intelligence (MIT Press Direct 2024), 2024. v.6. p.29-63.\u00a0<a href=\"https:\/\/doi.org\/10.1162\/dint_a_00245\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.1162\/dint_a_00245<\/a><\/li>\n<li>Paschoal, A. F. A.; Pirozelli, P.; Freire, V.; Delgado, K. V.; Peres, S. M.; Jos\u00e9, M. M.; Nakasato, F.; Oliveira, A. S.; Brand\u00e3o, A. A. F.; Costa, A. H. R.; Cozman, F. G.\u00a0<strong>Pir\u00e1: A Bilingual Portuguese-English Dataset for Question-Answering about the Ocean.<\/strong> In Proceedings of the 30th ACM International Conference on Information &amp; Knowledge Management (CIKM\u201921), Queensland Australia, 2021. p. 4544\u20134553.\u00a0 <a href=\"https:\/\/doi.org\/10.1145\/3459637.3482012\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.1145\/3459637.3482012<\/a><\/li>\n<\/ul>\n<p>* A palavra Pir\u00e1 significa &#8220;peixe&#8221; em Tupi-Guarani, uma fam\u00edlia de l\u00ednguas ind\u00edgenas da Am\u00e9rica do Sul que influenciou fortemente o portugu\u00eas brasileiro.<\/p>\n<hr \/>\n<h3><strong>Cocoruta<\/strong><\/h3>\n<div id=\"attachment_1070\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1070\" class=\"wp-image-1070 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/cocoruta-A.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1070\" class=\"wp-caption-text\">Imagem criada por IA (Copilot)<\/p><\/div>\n<p>O Cocoruta, em suas vers\u00f5es 1.0 e 2.0, \u00e9 um recurso que conta com corpora, conjuntos de perguntas e respostas e modelos otimizados sobre esses conjuntos. Os corpora s\u00e3o organizados da seguinte forma:<\/p>\n<ul>\n<li><strong>Corpus Cocoruta 1.0:<\/strong> leis, medidas provis\u00f3rias, decretos, portarias e outros documentos legais que tratam de quest\u00f5es de governan\u00e7a nacional (brasileira). O corpus \u00e9 composto por 172.408 documentos, constituindo um corpus substancial contendo 67,2 milh\u00f5es de tokens. A adequa\u00e7\u00e3o do corpus para foco no dom\u00ednio Amaz\u00f4nia Azul (costa brasileira) foi realizado via filtragem com uma express\u00e3o regular com palavras-chave associadas ao tema oceano. O corpus filtrando cont\u00e9m 68.991 documentos, totalizando 28,4 milh\u00f5es de tokens.<\/li>\n<li><strong>Corpus Cocoruta 2.0:<\/strong> leis, medidas provis\u00f3rias, decretos, portarias e outros documentos legais que tratam de quest\u00f5es de governan\u00e7a nacional. O corpus \u00e9 composto por 200.000 documentos, totalizando 226 milh\u00f5es de tokens. Ap\u00f3s a aplica\u00e7\u00e3o da filtragem via express\u00e3o regular, constituimos um corpus especializado em assuntos do mar com 53 mil documentos. Os documentos do corpus est\u00e3o em formato JSON, descritos por meio dos seguintes campos: ano do documento, situa\u00e7\u00e3o (revogado ou n\u00e3o); tipo (lei, decreto, portaria &#8230;.); t\u00edtulo (p.ex: Lei Complementar no. 63, de 11 de janeiro de 1998); resumo (ementa do documento); html-string (conte\u00fado); URL (endere\u00e7o do documento original).<\/li>\n<\/ul>\n<p>Diferen\u00e7as entre o Cocoruta 1.0 e 2.0: o corpus Cocoruta 1.0 pode ser considerando uma &#8220;cesta&#8221; de documentos legais. Ele n\u00e3o est\u00e1 organizado de forma estruturada a partir de metadados como o Cocoruta 2.0. Al\u00e9m disso, a express\u00e3o regular usada para filtragem de documentos sobre o mar foi mais especializada para a segunda vers\u00e3o do corpus. Ela passou a contar com mais termos, por\u00e9m mais espec\u00edficos.<\/p>\n<p>Acesso aos corpora Cocoruta: entre em <a href=\"https:\/\/sites.usp.br\/keml\/contato\/\">contato<\/a>.<\/p>\n<p>Artigo cient\u00edfico relacionado ao Cocoruta 1.0 (por favor, cite esse artigo se voc\u00ea fizer uso do Corpus Cocoruta 1.0):<\/p>\n<ul>\n<li>Esp\u00edrito Santo, F. O.; Peres, S.M.; Gramacho, G. S.; Brand\u00e3o, A. A. F.; Cozman, F. G. <strong>Legal Document-Based, Domain-Driven Q&amp;A System: LLMs in Perspective.<\/strong> In Proceedings of International Joint Conference on Neural Networks (IJCNN 2024), Jap\u00e3o, 2024.<\/li>\n<\/ul>\n<p>* &#8220;Cocoruta&#8221; \u00e9\u00a0 o nome dado a uma esp\u00e9cie de p\u00e1ssaro end\u00eamica do arquip\u00e9lago de Fernando de Noronha (Brasil), atualmente amea\u00e7ada de extin\u00e7\u00e3o. O nome do recurso foi escolhido como forma de homenagear a biodiversidade e ajudar na defesa da conserva\u00e7\u00e3o da Amaz\u00f4nia Azul (costa brasileira).<\/p>\n<hr \/>\n<h3>BLAB Wiki<\/h3>\n<div id=\"attachment_1074\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1074\" class=\"wp-image-1074 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/05\/wiki-B.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1074\" class=\"wp-caption-text\">Imagem criada por IA (copilot)<\/p><\/div>\n<p>A BLAB Wiki &#8211; Blue Amazon Brain Wiki \u00e9 um pequeno conjunto de verbetes que trazem conhecimento sobre a costa brasileira (Amaz\u00f4nia Azul). O objetivo desta wiki \u00e9 servir como uma base inicial de textos, escritos por especialistas, que versem sobre assuntos diversos referentes \u00e0 Amaz\u00f4nia Azul.<\/p>\n<p>Atualmente, a wiki conta com tr\u00eas conjuntos de verbetes:<\/p>\n<ul>\n<li>Biodiversidade: ambiente pel\u00e1gico, conserva\u00e7\u00e3o das esp\u00e9cies conhecidas, ecossistemas costeiros, mar profundo, microbiologia marinha; produ\u00e7\u00e3o prim\u00e1ria e zoologia (anel\u00eddeos marinhos, cnid\u00e1rios, moluscos, por\u00edferos);<\/li>\n<li>Legisla\u00e7\u00e3o e governan\u00e7a: constitui\u00e7\u00e3o federal, defini\u00e7\u00e3o dos espa\u00e7os marinhos, gerenciamento costeiro, legisla\u00e7\u00e3o pesqueira e maricultura, Marinha do Brasil, qualidade das \u00e1guas, recursos do mar e unidades de conserva\u00e7\u00e3o;<\/li>\n<li>Socioambiental: atividade petrol\u00edfera, coloniza\u00e7\u00e3o do Brasil, desastres ambientais no ambiente costeiro e marinho, eros\u00e3o e sedimenta\u00e7\u00e3o costeiras, esportes mar\u00edtimos, gera\u00e7\u00e3o de energia, minera\u00e7\u00e3o no mar, pesca e aquicultura, polui\u00e7\u00e3o e contamina\u00e7\u00e3o marinha, portos, transporte e navega\u00e7\u00e3o, turismo costeiro e urbaniza\u00e7\u00e3o do Brasil.<\/li>\n<\/ul>\n<p>Acesso \u00e0 wiki: <a href=\"https:\/\/c2dt02.duckdns.org\/w\/index.php\/P%C3%A1gina_principal\" target=\"_blank\" rel=\"noopener\">Blue Amazon Brain Wiki<\/a><\/p>\n<p>Artigo cient\u00edfico no qual a wiki \u00e9 apresentada (por favor, cite esse artigo se voc\u00ea fizer uso dos verbetes da Wiki &#8211; Amaz\u00f4nia Azul):<\/p>\n<ul>\n<li>Pirozelli, P.; Castro, A. B. R.; Oliveira, A. L. C.; Oliveira, A. S.; Ca\u00e7\u00e3o, F. N.; Silveira, I. C.; Campos, J. G. M.; Motheo, L. C.; Figueiredo, L. F.; Pellicer, L. F. A. O.; Jos\u00e9, M. A.; Jos\u00e9, M. M.; Ligabue, P. M.; Grava, R. S.; Tavares, R. M.; Matos, V. B.; Sym, Y. V.; Costa, A. H. R.; Brand\u00e3o, A. A. F.; Mau\u00e1, D. D.; Cozman, F. G.; Peres, S. M.\u00a0<strong>The BLue Amazon Brain (BLAB): A Modular Architecture of Services about the Brazilian Maritime Territory.<\/strong>\u00a0Proceedings of the Workshop: AI Modeling Oceans and Climate Change (AIMOCC 2022), Vienna, 2022, p. 1-11.\u00a0<a href=\"https:\/\/doi.org\/10.48550\/arXiv.2209.07928\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.48550\/arXiv.2209.07928<\/a><\/li>\n<\/ul>\n<p>* A constru\u00e7\u00e3o da Wiki conta com a colabora\u00e7\u00e3o do <a href=\"https:\/\/sites.usp.br\/huboceano\/sobre-pagina\/\" target=\"_blank\" rel=\"noopener\">Hub Lus\u00f3fono da D\u00e9cada do Oceano<\/a>.<\/p>\n<hr \/>\n<h6 style=\"text-align: right;\"><\/h6>\n<h3>Pontua\u00e7\u00e3o Autom\u00e1tica de Reda\u00e7\u00f5es (AES) do ENEM<\/h3>\n<div id=\"attachment_1557\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1557\" class=\"wp-image-1557 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/aes.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1557\" class=\"wp-caption-text\">Imagem gerada por IA (Copilot)<\/p><\/div>\n<p>Um novo benchmark para a pontua\u00e7\u00e3o autom\u00e1tica de reda\u00e7\u00f5es em portugu\u00eas, composto por entradas associadas a metadados e organizadas em subconjuntos pr\u00e9-estabelecidos de treino, valida\u00e7\u00e3o e teste. A cole\u00e7\u00e3o \u00e9 composta por 3.604 reda\u00e7\u00f5es e par\u00e1frases de reda\u00e7\u00f5es, anotadas com identificador, tema, t\u00edtulo, corpo do texto, conjunto de notas e ano.<\/p>\n<p>Acesse a cole\u00e7\u00e3o de reda\u00e7\u00f5es <a href=\"https:\/\/huggingface.co\/datasets\/kamel-usp\/aes_enem_dataset\" target=\"_blank\" rel=\"noopener\">aqui<\/a>.<\/p>\n<p>Publica\u00e7\u00e3o cient\u00edfica na qual a cole\u00e7\u00e3o \u00e9 apresetada (por favor, cite este artigo se voc\u00ea usar as reda\u00e7\u00f5es desta cole\u00e7\u00e3o):<\/p>\n<ul>\n<li>Silveira, I.C., Barbosa, B., Mau\u00e1, D. D. <strong>A New Benchmark for Automatic Essay Scoring in Portuguese<\/strong>. In Proceedings of the 16th International Conference on Computational Processing of Portuguese, 2024. <a href=\"https:\/\/aclanthology.org\/2024.propor-1.23\" target=\"_blank\" rel=\"noopener\">https:\/\/aclanthology.org\/2024.propor-1.23<\/a><\/li>\n<\/ul>\n<p>&nbsp;<\/p>\n<hr \/>\n<h3><\/h3>\n<h3><strong>LegalUSP<\/strong><\/h3>\n<div id=\"attachment_1609\" style=\"width: 310px\" class=\"wp-caption alignleft\"><a href=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus.jpeg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-1609\" class=\"wp-image-1609 size-medium\" src=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-300x300.jpeg\" alt=\"\" width=\"300\" height=\"300\" srcset=\"https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-300x300.jpeg 300w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-150x150.jpeg 150w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-768x768.jpeg 768w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-250x250.jpeg 250w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-174x174.jpeg 174w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-45x45.jpeg 45w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-200x200.jpeg 200w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus-400x400.jpeg 400w, https:\/\/sites.usp.br\/keml\/wp-content\/uploads\/sites\/1460\/2024\/09\/legalUSP-corpus.jpeg 1024w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-1609\" class=\"wp-caption-text\">Imagem gerada por IA (Copilot)<\/p><\/div>\n<p>A Universidade de S\u00e3o Paulo (USP) \u00e9 uma das maiores e mais importantes institui\u00e7\u00f5es de ensino superior do Brasil. Com um or\u00e7amento anual de R$ 8,6 bilh\u00f5es para 2024, a USP engloba 42 unidades de ensino e pesquisa distribu\u00eddas em 8 campi, localizados em 9 cidades. Essa vasta e diversificada estrutura torna seu conjunto de normas e regulamentos formalmente complexo e, muitas vezes, de dif\u00edcil compreens\u00e3o.<\/p>\n<p>O\u00a0<strong>LegalUSP<\/strong>\u00a0\u00e9 um corpus de documentos legais da Universidade de S\u00e3o Paulo, criado com o objetivo de facilitar o desenvolvimento de sistemas computacionais capazes de navegar e compreender essa rede de normas e regulamentos. O conjunto de dados \u00e9 composto por 866 documentos extra\u00eddos do\u00a0<a href=\"https:\/\/leginf.usp.br\/\" target=\"_blank\" rel=\"noopener\" data-saferedirecturl=\"https:\/\/www.google.com\/url?q=https:\/\/leginf.usp.br\/&amp;source=gmail&amp;ust=1727035858181000&amp;usg=AOvVaw0f1IGn4dsGQ-8nXfoFql8x\">site oficial<\/a>\u00a0da universidade e convertidos em arquivos de texto, cobrindo o per\u00edodo de janeiro de 2023 a maio de 2024. Esses documentos incluem uma variedade de normas, como Normas Hist\u00f3ricas, Estatuto, Regulamentos Gerais, Resolu\u00e7\u00f5es, Portarias, Regulamentos dos \u00d3rg\u00e3os e outros normativos.<\/p>\n<p>Acesse o corpus <a href=\"https:\/\/github.com\/gustavokpc\/RetrievalAugmentedGeneration\" target=\"_blank\" rel=\"noopener\">aqui<\/a>.<\/p>\n<hr \/>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Pir\u00e1 O Pir\u00e1, em suas vers\u00f5es 1.0 e 2.0, \u00e9 um recurso que conta com corpora e conjunto de perguntas e respostas. Embora o recurso tenha j\u00e1 duas vers\u00f5es, a dupla de corpora \u00e9 comum para essas vers\u00f5es e est\u00e1 organizada da seguinte forma: corpus 1:\u00a0 3.891 resumos de artigos cient\u00edficos que relatam pesquisas realizadas<a href=\"https:\/\/sites.usp.br\/keml\/corpora\/\">[&#8230;]<\/a><\/p>\n","protected":false},"author":24022,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"inline_featured_image":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":"","_links_to":"","_links_to_target":""},"class_list":["post-506","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/506","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/users\/24022"}],"replies":[{"embeddable":true,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/comments?post=506"}],"version-history":[{"count":5,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/506\/revisions"}],"predecessor-version":[{"id":1615,"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/pages\/506\/revisions\/1615"}],"wp:attachment":[{"href":"https:\/\/sites.usp.br\/keml\/wp-json\/wp\/v2\/media?parent=506"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}