Programas ajudam a criar dicionário etimológico da língua portuguesa

Com a tecnologia, grupo de pesquisa extraí contextos de obras e realiza uma vasta pesquisa etimológica e histórica do idioma, abrindo caminho para outras pesquisas na área.

Por Leandro Bernardo, da Agência Universitária de Notícias (AUN/USP)

Uma pesquisa do Núcleo de Apoio à Pesquisa em Etimologia e História da Língua Portuguesa (NAP Nehilp) faz uso da programação para a produção de um dicionário etimológico da língua portuguesa (DELPo). Em uma parceria com professores e pesquisadores do Instituto de Matemática e Estatística (IME) da USP, o Núcleo visa automatizar o processo de busca de contextos de palavras em arquivos históricos para realizar a retrodatação da primeira aparição de um determinado termo e verificar a evolução ortográfica desses e até a datação de seu desuso.

Mário Eduardo Viaro, professor de Morfologia Histórica na Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH) da USP e coordenador do Nehilp, comenta a necessidade de um dicionário etimológico de qualidade para nossa língua: “o português é a pior das línguas europeias em relação à informação etimológica”. De acordo com Viaro, os dicionários existentes são incompletos ou apresentam dados não confiáveis, gerando dificuldades em outros campos de pesquisa da língua, como o de morfologia histórica, na qual é docente.

Segundo o professor, outro ponto importante é realizar uma pesquisa baseada em moldes internacionais. Muitos dicionários existentes do português são realizados por apenas uma pessoa com alto grau de erudição, que dedicou uma vida à pesquisa etimológica, quase sempre restrita: “Passamos a vida inteira em uma obra, se quiser, para obter dados”, comenta o professor. Assim, uma das propostas era tentar automatizar esse processo de levantamento de dados de textos históricos, surgindo uma parceria com o IME para a criação do Moedor, principal programa utilizado pelo núcleo para a realização dessa busca de contextos.

Quando um texto passa pelo Moedor, todas as palavras e seus contextos (os períodos na qual elas se encontram) são catalogados e separados, sendo então inseridos em um banco de dados para a datação de seu primeiro testemunho (terminus a quo). Se, por acaso, uma obra contém um termo cuja datação é posterior à data verificada no Moedor, então esse é retrodatado, alterando as informações nesse banco.

A partir disso, é possível datar significados, grafias e flexões distintas de uma mesma palavra: são criadas fichas de cada termo (como um dicionário), para, em seguida, ser adicionada a parte etimológica. Essa última etapa, atualmente, é feita por apenas duas pessoas, uma delas o coordenador do núcleo. O professor planeja realizar um curso para a capacitação dos pesquisadores na pesquisa etimológica, porque, de acordo com Viaro, além de ser necessário um conhecimento sobre o tema, é preciso certa homogeneidade nos procedimentos para o trabalho não virar uma “bagunça”.

Ainda na questão etimológica, o núcleo tem uma rede de colaboradores especialistas em diversas línguas, em vários países, que funcionam como consultoria para a pesquisa etimológica, afinal, o português tem palavras derivadas até do quimbundo, língua de origem angolana com poucos falantes e pouquíssimos pesquisadores, necessária, assim, a comunicação com esses contatos externos para uma informação etimológica mais confiável.

Outras ferramentas
Junto com o Moedor, há também o Metaplasmador: considerado por Viaro talvez o único existente no mundo, o programa “checa” a transformação das palavras na língua portuguesa. Foi constatada que houve cinco etapas na transformação do português para os moldes modernos, e esse programa busca, a partir do latim, conferir se a etimologia está certa e verossímil às mudanças fonéticas regulares. Se não estiver, o programa consolida argumentos para defender a proposta etimológica que justifica isso. Exemplificando esse último caso, a palavra melancia deriva de belancia, porque a influência da palavra melão (fruta razoavelmente semelhante e já conhecida), na época, gerou a transformação irregular do termo. No entanto, para um bom uso do Metaplasmador, o pesquisador já deve ter um conhecimento prévio de latim e de suas regras: é um programa mais voltado para assessorar quem já pesquisa etimologia.

Além desses dois programas, está em fase final de testes o N-gram, semelhante ao programa do Google, o qual faz um gráfico que mostra a porcentagem do uso de determinada palavra no banco de dados do Nehilp. Isso contribui para a análise da interferência de palavras nas transformações fonéticas e gráficas de outras, além de abordar um campo diferenciado no ramo: “a etimologia toda até hoje só se preocupou com o surgimento da palavra, mas ela não fala muita coisa sobre quando a palavra deixou de ser usada” comenta o professor. Ou seja, além do terminus a quo, está sendo levantado também o terminus ad quem (último testemunho da palavra).

Assim, com o uso de plataformas digitais e online para a realização desse levantamento e uma gama de informações sobre a história da língua portuguesa, o Nehilp busca preencher essa lacuna presente na pesquisa etimológica do português, seja o falado na Europa, no Brasil ou em quaisquer outros lugares do mundo que têm o idioma lusófono como oficial.

Mais informações: (11) 3091-4294, (11) 3091-5035, e-mail nehilp@usp.br e site www.nehilp.org