Carolina é um corpus com um volume robusto de textos em Português Brasileiro contemporâneo (1970-2021), com informações de procedência e tipologia. O corpus tem atualmente 650 milhões de tokens e está disponível em acesso aberto, para download gratuito com finalidades de pesquisa, desde 8 de março de 2022.

Contexto

O Carolina é desenvolvido por uma equipe multidisciplinar de linguistas e cientistas da computação, membros do Laboratório Virtual de Humanidades Digitais - LaViHD e do Centro de Inteligência Artificial da Universidade de São Paulo - C4AI.

O C4AI-USP tem a missão de produzir pesquisa avançada em Inteligência Artificial no Brasil. O Projeto de Processamento de Linguagem Natural - NLP2 é um dos desafios do C4AI, e tem como objetivo geral desenvolver sistemas que avancem o estado da arte do Processamento de Linguagem Natural para o português brasileiro, atingindo um novo patamar em qualidade de geração e desempenho em relação ao que existe hoje.

O NLP2 do C4AI-USP está atualmente construindo vários corpora, entre eles o Carolina, o CORAA, Corpus de Áudios Anotados de Português Falado e o Portinari, Corpus Anotado do Português. O Carolina será um corpus do português contemporâneo para amplo uso, inclusive servindo como uma “nave-mãe” com relação aos demais corpora produzidos no C4AI-USP (englobando as transcrições de áudio do CORAA, os textos brutos não rotulados do Portinari e outros corpora futuros).

Leia mais sobre o desafio NPL2 na página do Projeto no C4AI.

Fundamentos

O Corpus Carolina é concebido com uma metodologia original que denominamos WaC-wiPT: Web as Corpus com informações de Proveniência e Tipologia.

Consideramos a proveniência um aspecto crucial a se aspirar em corpora baseados na web, combinada à tipologia e ao gerenciamento de equilíbrio. Além de facilitar o cumprimento dos direitos autorais e a rotulagem tipológica, ela permite responder a perguntas sobre a origem dos textos e aumenta o escopo de uso do corpus.

O trabalho inicial da equipe do Carolina buscou abordar a tipologia textual em um sentido amplo, livre de um compromisso teórico estrito, como uma ferramenta metodológica crucial no desenvolvimento de um acervo de textos de tamanho tão significativo - permitindo a organização das buscas, da seleção e do balanceamento dos textos.

A versão atual do corpus, com cerca de 650 milhões de tokens e 1 milhão de documentos, inclui textos do âmbito judiciário e legislativo brasileiros, obras literárias em domínio público, textos jornalísticos, textos de redes sociais e wikis, e documentos já publicados em outros corpora.

A V1 ainda não representa um universo balanceado quanto à procedência dos textos e sua tipologia ampla, como mostram os dados no gráfico. Observe-se que essa primeira versão corresponde apenas a uma parte dos documentos já prospectados e ainda em tratamento pela equipe.

Publicações relacionadas

Sturzeneker, Mariana Lourenço; Crespo, Maria Clara Ramos Morales; Rocha, Maria Lina de Souza Jeannine; Finger, Marcelo; Paixão de Sousa, Maria Clara; Monte, Vanessa Martins do; Namiuti, Cristiane. Carolina’s Methodology: building a large corpus with provenance and typology information. Proceedings of the Second Workshop on Digital Humanities and Natural Language Processing (2nd DHandNLP 2022). CEUR-WS, Vol. 3128, 2022. Available at http://ceur-ws.org/Vol-3128.

Finger, Marcelo; Paixão de Sousa, Maria Clara; Namiuti, Cristiane; Martins do Monte, Vanessa; Costa, Aline Silva; Serras, Felipe Ribas; Sturzeneker, Mariana Lourenço; Guets, Raquel de Paula; Mesquita, Renata Morais; Crespo, Maria Clara Ramos Morales; Rocha, Maria Lina de Souza Jeannine; Palma, Mayara Feliciano; Silva, Mariana Marques da; Brasil, Patrícia. Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance and Typology Information. Submitted in June, 2021.

'Carolina'

Carolina Michaelis em foto de 1876

O Corpus Carolina recebeu esse nome em homenagem a Carolina Michaelis de Vasconcelos (1851-1925), filóloga e linguista alemã radicada em Portugal, autora de A Saudade Portuguesa, e primeira mulher a atuar como docente na Faculdade de Letras da Universidade de Lisboa, em 1911.

Essa homenagem simboliza o desejo que move a equipe computacional do Lavihd: caminhar para a ponta do conhecimento valorizando a língua portuguesa e sua história, na trilha de uma ciência feita por mulheres.