Conteúdos
Acompanhe conteúdos sobre planejamento experimental, análise estatística e reprodutibilidade na ciência sugeridos pelo NEPER. Sugestões de referências relevantes que venham a se juntar a essa lista serão muito bem-vindas!
A cultura do “publique ou pereça” é culpada pela crise de reprodutibilidade
Nature,: 20 January 2025
https://www.nature.com/articles/d41586-024-04253-w
A chamada cultura do “publique ou pereça” é frequentemente apontada como um dos principais fatores por trás da crise de reprodutibilidade científica. Um levantamento realizado com mais de 1.600 pesquisadores da área biomédica também identificou o uso de amostras reduzidas e a seleção enviesada de dados como causas centrais desse problema. De acordo com uma pesquisa divulgada em novembro, quase 75% dos cientistas biomédicos acreditam que a ciência enfrenta, de fato, uma crise de reprodutibilidade, sendo a pressão por publicar o motivo mais citado. O estudo, publicado na revista PLoS Biology¹, ouviu autores de artigos científicos publicados ao longo de um ano, a partir de 1º de outubro de 2020, em 400 periódicos biomédicos escolhidos aleatoriamente. Ao todo, 1.630 pesquisadores responderam ao questionário, representando mais de 80 países. A maioria dos participantes era composta por homens (59%) e por professores ou pesquisadores líderes de grupo (72%). Além disso, 42% atuavam nos Estados Unidos, no Canadá ou no Reino Unido. Segundo os dados coletados, 62% dos entrevistados afirmaram que a pressão para publicar contribui para a irreprodutibilidade “sempre” ou “com muita frequência”. Para Kelly Cobey, psicóloga social do Instituto do Coração da Universidade de Ottawa e autora principal do estudo, esses resultados deixam claro que o problema está enraizado na cultura do próprio sistema de pesquisa. Trata-se, segundo ela, de um ambiente que prioriza o volume de publicações em detrimento da qualidade dos resultados. Cobey ressalta que a falta de reprodutibilidade científica não é um fenômeno recente nem restrito à biomedicina, tendo sido documentado em diversas áreas ao longo de décadas. O novo estudo, explica, buscou aprofundar achados de uma pesquisa publicada na Nature em 2016, na qual mais de 70% dos 1.576 cientistas entrevistados relataram dificuldades para reproduzir resultados obtidos por outros pesquisadores. Entre outros fatores apontados no estudo atual como contribuintes “sempre” ou “muito frequentes” para a irreprodutibilidade estão o tamanho inadequado das amostras (55%), estudos finalizados que nunca chegam a ser publicados (54%), análises estatísticas mal conduzidas (50%) e a escolha seletiva de resultados (47%). Para Elisabeth Bik, microbiologista e investigadora científica na região da Baía de São Francisco, esses achados confirmam suspeitas discutidas há pelo menos duas décadas. “Há um aumento generalizado de diferentes tipos de erros”, afirma. “Alguns decorrem de descuido, enquanto outros parecem envolver má conduta.” Bik, que já contribuiu para mais de 1.300 retratações de artigos científicos, passou a atuar na defesa da integridade científica após descobrir que um de seus próprios trabalhos havia sido plagiado. Ela concorda que a pressão por produtividade acadêmica desempenha um papel central nesse cenário.
Reprodutibilidade e transparência: o que está acontecendo e como podemos ajudar?
Nature Communications volume 16, Article number: 1082
(2025)
https://www.nature.com/articles/s41467-024-54614-2
Problemas com a reprodutibilidade
experimental afetam todas as áreas da ciência, com opiniões divergentes sobre
suas causas e soluções. Especialistas de diferentes campos explicam que
reprodutibilidade se refere à capacidade de repetir experimentos com os mesmos
dados, testes de robustez avaliam se diferentes análises produzem os mesmos
resultados, e replicabilidade envolve obter os mesmos resultados com novos
dados. A confusão entre esses termos é comum, e há um movimento para que
“repetibilidade” seja usado como termo geral. A importância da
reprodutibilidade e transparência reside na necessidade de validar e contestar
evidências científicas, assegurando que descobertas sejam confiáveis e
verificáveis, o que é fundamental para o progresso e integridade da ciência. O artigo aborda a importância da reproducibilidade e
transparência na ciência, destacando que experimentos não reproduzíveis podem
revelar aspectos relacionados aos métodos, reagentes, equipamento, operador ou
variabilidade biológica, sendo essenciais para o avanço do conhecimento,
especialmente quando analisados cuidadosamente para identificar discrepâncias.
A reproducibilidade é vista por vários professores como fundamental para
garantir a confiabilidade das descobertas, permitindo que outros pesquisadores
construam sobre elas e economizando recursos. A transparência inclui divulgação
detalhada de métodos e dados brutos, sendo crucial para a replicabilidade. O
texto também discute a crise atual de reproducibilidade na ciência, que muitas
vezes é atribuída à busca por resultados perfeitos, pressão por pioneirismo e a
uma espiral de práticas insustentáveis que prejudicam o avanço científico.
Apesar dos desafios, há uma resposta positiva da comunidade científica,
reconhecendo a necessidade de reformas e melhorias no processo científico.
O texto aborda a crescente
disparidade entre o valor de mercado das publicações científicas e a avaliação
bibliométrica dos pesquisadores, contrapondo-se à necessidade fundamental do
avanço científico de compartilhar conhecimentos de forma controlada e
reproduzível. Essa contradição tem levado a uma crise na ciência, impulsionada
pela busca por publicações rápidas e atrativas, muitas vezes comprometendo a
integridade acadêmica e a qualidade do trabalho. A dependência excessiva de
métricas scientométricas, o negócio da publicação acadêmica e a falta de
responsabilidade financeira sobre resultados irreprodutíveis contribuem para um
ambiente onde o foco passa a ser a carreira mais do que o progresso real da
ciência. Para melhorar essa situação, os autores sugerem ações como maior
transparência na pesquisa, incluindo divulgação de dados e métodos, incentivo à
documentação de tentativas frustradas, uso de ferramentas digitais para
promover cultura de reproducibilidade e o fortalecimento do pensamento crítico.
Também destacam a importância do papel dos revisores, que podem solicitar maior
transparência e questionar rigorosamente os estudos, promovendo uma avaliação
mais criteriosa e confiável da ciência.
Será que o machine learning pode
alimentar uma crise de reprodutibilidade na ciência?
Nature NEWS 26
July 2022
https://www.nature.com/articles/d41586-022-02035-w
Da
biomedicina às ciências políticas, os pesquisadores usam cada vez mais o machine
learning como ferramenta para fazer previsões com base em padrões em seus
dados. Mas as afirmações em muitos desses estudos provavelmente são exageradas,
de acordo com dois pesquisadores da Universidade de Princeton, em Nova Jersey.
Eles querem alertar sobre o que chamam de “crise de reprodutibilidade iminente”
nas ciências baseadas em machine learning. Três armadilhas a evitar no machine
learning O machine learning está sendo vendido como uma ferramenta que os
pesquisadores podem aprender em poucas horas e usar sozinhos — e muitos seguem
esse conselho, diz Sayash Kapoor, pesquisador de machine learning em Princeton.
E poucos cientistas percebem que os problemas que encontram ao aplicar
algoritmos de inteligência artificial (IA) são comuns a outros campos, diz
Kapoor, coautor de um preprint sobre a “crise”. Os revisores por pares não têm
tempo para examinar esses modelos, então a academia atualmente carece de
mecanismos para eliminar artigos irreproduzíveis, afirma ele. Kapoor e seu
coautor, Arvind Narayanan, criaram diretrizes para que os cientistas evitem
essas armadilhas, incluindo uma lista de verificação explícita a ser submetida
com cada artigo. A definição de reprodutibilidade de Kapoor e Narayanan é
ampla. Ela afirma que outras equipes devem ser capazes de replicar os
resultados de um modelo, dados os detalhes completos sobre dados, código e
condições — frequentemente chamada de reprodutibilidade computacional, algo que
já é uma preocupação para os cientistas de machine learning. A dupla
também define um modelo como irreproduzível quando os pesquisadores cometem
erros na análise de dados que significam que o modelo não é tão preditivo
quanto alegado. Julgar tais erros é subjetivo e geralmente requer um
conhecimento profundo da área em que o machine learning está sendo aplicado.
Alguns pesquisadores cujo trabalho foi criticado pela equipe discordam que seus
artigos sejam falhos ou dizem que as afirmações de Kapoor são muito fortes. Em
estudos sociais, por exemplo, pesquisadores desenvolveram modelos de machine
learning que visam prever quando um país provavelmente entrará em guerra civil.
Kapoor e Narayanan afirmam que, uma vez corrigidos os erros, esses modelos não
apresentam desempenho melhor do que as técnicas estatísticas padrão. Mas David
Muchlinski, cientista político do Instituto de Tecnologia da Geórgia, em
Atlanta, cujo artigo² foi examinado pela dupla, afirma que o campo da previsão
de conflitos tem sido injustamente difamado e que estudos subsequentes
corroboram seu trabalho. Mais de 1.200 pessoas se inscreveram no que
inicialmente era um pequeno workshop online sobre reprodutibilidade, realizado
em 28 de julho, organizado por Kapoor e colegas, com o objetivo de encontrar e
disseminar soluções. “A menos que façamos algo assim, cada área continuará
encontrando esses problemas repetidamente”, diz ele. O otimismo excessivo
em relação ao poder dos modelos de machine learning pode ser prejudicial quando
os algoritmos são aplicados em áreas como saúde e justiça, afirma Momin Malik,
cientista de dados da Clínica Mayo, em Rochester, Minnesota, que deve palestrar
no workshop. A menos que a crise seja enfrentada, a reputação do machine
learning pode ser prejudicada, diz ele. Kapoor e Narayanan afirmam que
problemas semelhantes ocorrem na aplicação do machine learning a diversas
ciências. A dupla analisou 20 revisões em 17 áreas de pesquisa e contabilizou
329 artigos científicos cujos resultados não puderam ser totalmente replicados
devido a problemas na forma como o machine learning foi aplicado. O
próprio Narayanan não está imune: um artigo de 2015 sobre segurança da
computação, do qual ele foi coautor, está entre os 329. “É realmente um
problema que precisa ser abordado coletivamente por toda a comunidade”,
diz Kapoor. A questão mais proeminente que Kapoor e Narayanan destacam é o
“vazamento de dados”, quando as informações do conjunto de dados com
o qual um modelo aprende incluem dados que ele usa posteriormente para
avaliação. Se esses dados não forem totalmente separados, o modelo efetivamente
já viu as respostas e suas previsões parecem muito melhores do que realmente
são. A equipe identificou oito tipos principais de vazamento de dados contra os
quais os pesquisadores podem ficar atentos. Por exemplo, o vazamento temporal
ocorre quando os dados de treinamento incluem pontos de um período posterior
aos dados de teste — o que é um problema porque o futuro depende do passado.
Como exemplo, Malik cita um artigo de 2011⁴ que afirmava que um modelo que
analisava o humor dos usuários do Twitter poderia prever o valor de fechamento
do mercado de ações com uma precisão de 87,6%. Mas, como a equipe testou o
poder preditivo do modelo usando dados de um período anterior a parte do
conjunto de treinamento, o algoritmo efetivamente pôde prever o futuro, afirma
ele. Problemas mais amplos incluem o treinamento de modelos em conjuntos de
dados mais restritos do que a população que eles devem refletir, diz Malik.
Outro problema é que os algoritmos muitas vezes acabam dependendo de atalhos
que nem sempre funcionam, diz Jessica Hullman, cientista da computação da
Northwestern University em Evanston, Illinois, que falará no workshop. A alta precisão das previsões em
testes muitas vezes engana as pessoas, fazendo-as pensar que os modelos estão
captando a “verdadeira estrutura do problema” de uma maneira semelhante à
humana, afirma ela. A situação é similar à crise de replicação na psicologia,
na qual as pessoas depositam muita confiança em métodos estatísticos,
acrescenta. A euforia em torno das capacidades do machine learning contribuiu
para que os pesquisadores aceitassem seus resultados com muita facilidade, diz
Kapoor. A própria palavra “previsão” é problemática, afirma Malik, já que a
maioria das previsões é, na verdade, testada retrospectivamente e não tem nada
a ver com prever o futuro. A solução de Kapoor e Narayanan para lidar com o
vazamento de dados é que os pesquisadores incluam em seus manuscritos
evidências de que seus modelos não apresentam cada um dos oito tipos de
vazamento. Os autores sugerem um modelo para essa documentação, que chamam de
“folhas de informações do modelo”. Nos últimos três anos, a biomedicina avançou
muito com uma abordagem semelhante, afirma Xiao Liu, oftalmologista clínica da
Universidade de Birmingham, no Reino Unido, que ajudou a criar diretrizes para
a elaboração de relatórios de estudos que envolvem IA, por exemplo, em triagem
ou diagnóstico. Em 2019, Liu e seus colegas descobriram que apenas 5% dos mais
de 20.000 artigos que utilizavam IA para imagens médicas eram descritos com
detalhes suficientes para discernir se funcionariam em um ambiente clínico. As
diretrizes não melhoram diretamente os modelos de ninguém, mas “tornam muito
óbvio quem fez um bom trabalho e, talvez, quem não fez”, diz ela, o que é um
recurso que os órgãos reguladores podem aproveitar. A colaboração também pode
ajudar, afirma Malik. Ele sugere que os estudos envolvam tanto especialistas na
disciplina relevante quanto pesquisadores em machine learning, estatística e
amostragem de pesquisas. Áreas em que o machine learning encontra pistas
para pesquisas subsequentes — como a descoberta de medicamentos — provavelmente
se beneficiarão enormemente da tecnologia, diz Kapoor. Mas outras áreas
precisarão de mais trabalho para demonstrar sua utilidade, acrescenta ele.
Embora o machine leraning ainda seja relativamente nova em muitas áreas,
os pesquisadores devem evitar o tipo de crise de confiança que se seguiu à
crise de replicação na psicologia há uma década, afirma ele. “Quanto mais
adiarmos, maior será o problema.”
Reprodutibilidade em
pesquisas baseadas em machine learning: visão geral, barreiras e fatores
motivadores
Wiley
Online Library 14 April 2025
https://onlinelibrary.wiley.com/doi/full/10.1002/aaai.70002
Muitas áreas de pesquisa estão
atualmente lidando com problemas relacionados aos baixos níveis de
reprodutibilidade. Questões como a falta de transparência, de dados ou código,
a baixa adesão aos padrões e a sensibilidade das condições do machine
learning (ML) fazem com que muitos artigos não sejam sequer reproduzíveis
em princípio. Nos casos em que são reproduzíveis, os experimentos de
reprodutibilidade têm encontrado níveis preocupantemente baixos de similaridade
com os resultados originais. Apesar dos apelos anteriores de pesquisadores de machine
learning sobre esse tema e de várias iniciativas argumentamos que a comunidade
em geral continua a tratar essa questão com muita leviandade. A baixa
reprodutibilidade ameaça a confiança e a integridade dos resultados da
pesquisa. Portanto, neste artigo, os autores apresentam uma nova perspectiva
sobre as principais barreiras e impulsionadores (tanto procedimentais quanto
técnicos) para o aumento da reprodutibilidade em vários níveis (métodos,
código, dados e experimentos). Resultados não confiáveis podem prejudicar o
progresso científico, desperdiçando recursos, reduzindo a confiança, retardando
descobertas e minando a base para pesquisas futuras. No entanto, muitos campos
científicos enfrentam atualmente questões cruciais sobre a reprodutibilidade
dos resultados de pesquisa. As preocupações com uma “crise de
reprodutibilidade” foram levantadas com maior destaque nas ciências biomédicas
e sociais, mas a pesquisa que emprega inteligência artificial (IA) em geral, e ML
em particular, também está sob escrutínio. O ML está se integrando cada vez
mais profundamente aos métodos de pesquisa, não apenas na ciência da
computação, mas em todas as disciplinas. Portanto, as questões relativas à
reprodutibilidade do machine learning levantam preocupações urgentes sobre a
confiabilidade e a validade das descobertas, não apenas para cientistas da
computação, mas também para grandes áreas da pesquisa científica de ponta em
diversas disciplinas. As causas da baixa reprodutibilidade podem ser técnicas,
metodológicas ou culturais. Em linhas gerais, algumas causas, como a falta de
compartilhamento de dados e código, a falta ou a baixa adesão a padrões, o
projeto de pesquisa inadequado ou incentivos insuficientes, podem ser
consideradas comuns a muitos domínios. Além dos desafios comuns enfrentados por
outras disciplinas, o uso de ML introduz obstáculos únicos para a
reprodutibilidade, incluindo a sensibilidade às condições de treinamento de ML,
fontes de aleatoriedade, não determinismo inerente, custos (econômicos e
ambientais) de recursos computacionais e o uso crescente de ferramentas de ML
automatizado. Entre os aspectos metodológicos e culturais, as especificidades
da pesquisa em ML, como o “vazamento de dados”, bem como questões específicas
de ML relacionadas a vieses não observados, falta de transparência, relato
seletivo de resultados e culturas de publicação, também desempenham um papel. A
cultura do “publish or perish” permeia a academia, pressionando os
pesquisadores a publicar o máximo possível de artigos nos periódicos ou
conferências de maior prestígio ou classificação. Por sua vez, essa cultura
distorce os incentivos para atalhos, dando origem às chamadas “práticas de
pesquisa questionáveis” e “práticas de design, análise ou relato que foram
questionadas”. devido ao potencial de a prática ser empregada com o propósito de
apresentar evidências tendenciosas em favor de uma afirmação”. O artigo tem
como objetivo fornecer uma visão geral detalhada da reprodutibilidade e suas
barreiras e impulsionadores associados no ML. O texto fornece uma categorização
contextual das barreiras e impulsionadores para os quatro tipos de
reprodutibilidade no ML (descrição, código, dados e experimento), com
referência específica à pesquisa em ciência da computação e áreas biomédicas. O
objetivo é analisar o estado atual da reprodutibilidade no ML, fornecer
conselhos concretos sobre estratégias para que os pesquisadores mitiguem
problemas de reprodutibilidade em seus próprios trabalhos, destacar áreas-chave
onde pesquisas adicionais são necessárias em áreas específicas e fomentar ainda
mais a discussão sobre a ameaça representada por essas questões urgentes.
O artigo está estruturado da
seguinte forma: na seção “Definindo Reprodutibilidade”, esclarece os termos e
definições operacionais. Em seguida, analisa as barreiras ao aumento da
reprodutibilidade da pesquisa orientada por ML
e, posteriormente, os fatores que impulsionam a reprodutibilidade do ML,
incluindo diferentes ferramentas, práticas e intervenções. Aqui, também
apresenta uma comparação dos pontos fortes e das limitações potenciais desses
fatores. Por fim, o texto mapeia as barreiras aos fatores impulsionadores para
ajudar a determinar a viabilidade de várias opções para aprimorar a
reprodutibilidade do ML.
Desafios da IA
reproduzível na ciência de dados biomédicos
Springer
Nature Link: 10 January 2025
https://link.springer.com/article/10.1186/s12920-024-02072-6
A
irreprodutibilidade da IA na ciência de dados biomédicos frequentemente
decorre de diversos fatores-chave, incluindo o não determinismo inerente aos
modelos de IA, variações nos dados, pré-processamento de dados, custos
computacionais e variações de hardware. Isso surge de várias fontes inerentes à
arquitetura dos modelos, aos processos de treinamento, à aceleração por
hardware ou mesmo às definições matemáticas. Por exemplo, os Modelos de
Aprendizagem Linear (LLMs) podem produzir saídas diferentes para a mesma
entrada devido à amostragem estocástica durante a geração de texto, à
aleatorização em processos de treinamento, como embaralhamento de dados e
inicialização de pesos, e à variabilidade induzida pelo hardware proveniente de
recursos de computação paralela. Os fatores que contribuem para isso incluem
inicialização aleatória de pesos, descida de gradiente em mini-lotes, técnicas
de regularização por dropout e aceleração por hardware. O uso de métodos de
otimização não determinísticos, como a Descida de Gradiente Estocástica (SGD) e
suas variantes, que utilizam mini-lotes aleatórios de dados, agrava ainda mais
esse efeito. Além disso, decisões arquitetônicas como a escolha de funções de
ativação e o uso de camadas de dropout para regularização introduzem
variabilidade que impacta a reprodutibilidade. Por exemplo, a desativação
aleatória de neurônios durante o treinamento por meio de dropout pode levar a
comportamentos diferentes do modelo entre as execuções. Funções de ativação com
transições abruptas, como sigmoide ou tangente hiperbólica (tanh), podem
amplificar problemas de precisão de ponto flutuante, particularmente quando
combinadas com aceleração por hardware (por exemplo, GPUs ou TPUs). Além disso,
a própria aceleração por hardware (por exemplo, usando GPUs) introduz variações
aleatórias nos dados devido ao processamento paralelo e às limitações de
precisão de ponto flutuante. Variações entre os conjuntos de dados de
treinamento e teste podem levar a problemas de irreprodutibilidade, como sobreajuste
(overfitting). Por exemplo, um modelo treinado com dados genômicos de alta
qualidade pode apresentar desempenho ruim quando testado em conjuntos de dados
que contêm artefatos. Esse desequilíbrio pode fazer com que o modelo generalize
mal, levando a taxas de erro mais altas ou diagnósticos incorretos para grupos
sub-representados, como a não detecção de diabetes de início precoce em
indivíduos mais jovens. Além disso, essa sub-representação pode fazer com que o
desempenho do modelo varie drasticamente entre diferentes configurações ou
populações de teste, comprometendo, em última análise, sua reprodutibilidade.
Além disso, o vazamento de dados — quando informações do conjunto de teste
influenciam inadvertidamente o processo de treinamento — pode inflar artificialmente
as métricas de desempenho, fazendo com que os modelos falhem em conjuntos de
dados independentes e, assim, prejudicando a reprodutibilidade da IA. O
pré-processamento de dados é crucial para a reprodutibilidade de modelos de IA,
particularmente em ciência de dados biomédicos. Técnicas como normalização,
seleção de características, vetorização, redução de dimensionalidade e
integração de dados influenciam significativamente o treinamento e a análise
subsequente. A escolha dos métodos dentro desses processos pode levar a
variações na qualidade dos dados de treinamento e teste ou introduzir
aleatoriedade no processo de treinamento. Por exemplo, a normalização em lote —
uma técnica de regularização amplamente utilizada em aprendizado profundo — introduz
variações aleatórias nos dados, principalmente durante o treinamento, devido ao
cálculo das estatísticas do mini-lote. Como mencionado, a normalização ou
seleção de características inadequada, aplicada antes da divisão dos dados em
conjuntos de treinamento e teste, pode resultar em vazamento de dados,
impactando ainda mais o treinamento. Além disso, métodos de redução de
dimensionalidade como t-SNE e UMAP são inerentemente não determinísticos, pois
dependem da resolução de problemas de otimização não convexos com múltiplas
soluções possíveis, contribuindo para a variabilidade no pré-processamento de
dados. Esses desafios são particularmente relevantes para conjuntos de dados
biomédicos complexos e de grande escala, onde métodos de pré-processamento ideais
ainda não foram estabelecidos. Os custos computacionais para modelos de IA,
especialmente em domínios biomédicos complexos, são substanciais e impactam
significativamente a reprodutibilidade. Por exemplo, modelos como o AlphaFold3
abordam problemas NP-difíceis, com a complexidade computacional aumentando
exponencialmente com o tamanho da entrada, tornando a verificação por terceiros
intensiva em recursos. Os cálculos em GPU e TPU podem produzir resultados não
determinísticos devido ao processamento paralelo, operações de ponto flutuante,
arredondamento estocástico e diferenças de software em frameworks como
TensorFlow e PyTorch. Essas variações induzidas pelo hardware, juntamente com
os altos custos computacionais, dificultam os esforços de verificação independente
e exacerbam os desafios de reprodutibilidade. Principais desafios para alcançar
IA reproduzível em ciência de dados biomédicos Alcançar IA reproduzível em
ciência de dados biomédicos é um desafio devido às complexidades inerentes aos
dados, modelos e processos de aprendizado, agravadas por um dilema da teoria
dos jogos. A complexidade dos dados refere-se aos desafios decorrentes das
características e da qualidade dos dados de entrada usados em modelos de IA
biomédica. Esses
desafios incluem alta dimensionalidade, onde conjuntos de dados com inúmeras
características aumentam as demandas computacionais e complicam a modelagem, e
heterogeneidade, que envolve variações em tipos de dados como texto, imagens e
valores numéricos. Além disso, a multimodalidade, ou a necessidade de combinar
diversas fontes de dados, como dados genômicos com imagens ou registros
clínicos, amplifica ainda mais a complexidade. Problemas como dados faltantes e
ruído exigem imputação ou limpeza, frequentemente introduzindo variabilidade,
enquanto viés e desequilíbrio nos conjuntos de dados podem resultar em modelos
que generalizam mal para populações ou classes sub-representadas. Conjuntos de
dados de alta dimensionalidade, heterogêneos e multimodais, juntamente com
dados faltantes ou desbalanceados, complicam o pré-processamento e introduzem
variabilidade, dificultando a padronização de fluxos de trabalho reproduzíveis,
especialmente em áreas biomédicas. Conjuntos de dados biomédicos frequentemente
contêm diversos tipos de dados, como sequências genômicas, imagens e registros
clínicos, cada um caracterizado por alta dimensionalidade e heterogeneidade. Essas
características dificultam o desenvolvimento de técnicas de pré-processamento
que padronizem os dados de forma eficaz, sem introduzir inconsistências. Sem
estruturas de pré-processamento personalizadas e padronizadas, essas variações
comprometem a reprodutibilidade dos modelos de IA. Além disso, técnicas de
regularização e otimização, como dropout e normalização em lote, são empregadas
para controlar o sobreajuste, mas podem introduzir variabilidade, aumentando o
desafio do treinamento de modelos complexos. Embora modelos com maior
complexidade frequentemente alcancem um desempenho notável em tarefas
desafiadoras, isso ocorre à custa de uma menor reprodutibilidade. A
complexidade do modelo aumenta significativamente o risco de sobreajuste e,
embora as técnicas de regularização visem resolver esse problema, elas
frequentemente introduzem variações adicionais que reduzem a reprodutibilidade.
Por exemplo, o dropout, um método de regularização amplamente utilizado,
desativa neurônios aleatoriamente durante o treinamento, resultando em
diferentes configurações de modelo em cada iteração.
Intervenções de ciência
aberta para melhorar a reprodutibilidade e a replicabilidade da pesquisa: uma
revisão de escopo
Royal
Society Open Science: 5 April 2025
A confiabilidade e a credibilidade dos resultados da pesquisa estão em questão. Isso é especialmente verdadeiro em relação à sua reprodutibilidade (definida neste artigo como a obtenção de resultados iguais ou semelhantes ao repetir análises de estudos anteriores usando o projeto, os dados e o código originais; cf. e replicabilidade (definida aqui como a obtenção de resultados iguais ou semelhantes ao repetir, total ou parcialmente, um estudo anterior. A reprodutibilidade e a replicabilidade, portanto, sustentam a credibilidade e a confiabilidade dos resultados de pesquisa em muitas áreas, especialmente em ciência, tecnologia, engenharia e matemática. Fundamental para este debate foram as falhas em reproduzir os resultados de estudos nas ciências médicas, comportamentais e sociais. Áreas como psicologia, pesquisa biomédica, economia e ciências sociais em geral testemunharam estudos com múltiplos laboratórios, cujos resultados indicaram níveis de reprodutibilidade variando entre 30 e 70%. Um artigo na Nature News em 2016 relatou resultados de uma pesquisa (ironicamente, eles próprios carentes de transparência) que destacou que entre 60 e 80% dos cientistas em várias disciplinas encontraram obstáculos na reprodução o trabalho de seus pares, com dificuldades igualmente notáveis encontradas ao tentar replicar seus próprios experimentos (40–60%). Dadas essas diferenças interdisciplinares, espera-se que os fatores e práticas que podem influenciar o nível de reprodutibilidade da pesquisa variem em sua eficácia (o que funciona, em que circunstâncias). Fatores que têm sido associados a níveis percebidos de baixa reprodutibilidade incluem a não publicação seletiva, práticas de pesquisa questionáveis, treinamento insuficiente em métodos de pesquisa e falta de transparência e acessibilidade aos dados. Intervenções para melhorar a reprodutibilidade podem ter como alvo essas práticas. Os defensores da ciência aberta acreditam que a abertura de métodos, materiais e comunidade melhorará a reprodutibilidade da ciência; no entanto, o acesso inadequado aos dados necessários para repetir experimentos ou análises continua sendo uma grande preocupação em toda a ciência. Para avaliar quais intervenções foram formalmente testadas quanto à sua eficácia na melhoria da reprodutibilidade da ciência, realizamos uma revisão exploratória da literatura.
Amrhein, V., & Greenland, S. (2018). Remove, rather than redefine, statistical significance. Nature Human Behaviour, 2(1), 4-4. doi:10.1038/s41562-017-0224-0
Amrhein, V., Greenland, S., & McShane, B. (2019). Retire statistical significance. Nature, 567(7748), 305-307. doi:10.1038/d41586-019-00857-9
Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E. J., Berk, R., . . . Johnson, V. E. (2018). Redefine statistical significance. Nature Human Behaviour, 2(1), 6-10. doi:10.1038/s41562-017-0189-z
Fidler, F., Thomason, N., Cumming, G., Finch, S., & Leeman, J. (2004). Editors can lead researchers to confidence intervals, but can’t make them think – Statistical reform lessons from medicine. Psychological Science, 15(2), 119-126. doi:10.1111/j.0963-7214.2004.01502008.x
Ioannidis, J. P. A. (2005). Why most published research findings are false. Plos Medicine, 2(8), 696-701. doi:10.1371/journal.pmed.0020124
Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A. J., Argamon, S. E., . . . Zwaan, R. A. (2018). Justify your alpha. Nature Human Behaviour, 2(3), 168-171. doi:10.1038/s41562-018-0311-x
Lazic, S. E. (2016) Experimental Design for Laboratory Biologists. Cambridge; [United Kingdom]: Cambridge University Press.
Leek, J. (2017). Five ways to fix statistics. Nature, 551(7682), 557-+.
Montgomery, D. C. (2009). Design and analysis of experiments (7th ed. ed.). Hoboken, N.J.: Wiley.
Munafo, M. R., Nosek, B. A., Bishop, D. V. M., Button, K. S., Chambers, C. D., du Sert, N. P., . . . Ioannidis, J. P. A. (2017). A manifesto for reproducible science. Nature Human Behaviour, 1(1), 9. doi:10.1038/s41562-016-0021
Nagy, G. A., Fang, C. M., Hish, A. J., Kelly, L., Nicchitta, C. V., Dzirasa, K., & Rosenthal, M. Z. (2019). Burnout and Mental Health Problems in Biomedical Doctoral Students. Cbe-Life Sciences Education, 18(2), 14. doi:10.1187/cbe.18-09-0198
Oehlert, G. W. (2000). A first course in design and analysis of experiments. New York ; [United Kingdom]: W.H. Freeman.
Pashler, H., & Harris, C. R. (2012). Is the Replicability Crisis Overblown? Three Arguments Examined. Perspectives on Psychological Science, 7(6), 531-536. doi:10.1177/1745691612463401
Wilson, S. L. et al. (2021). Sharing biological data: why, when, and how, FEBS Letters 595, 847–863 (https://febs.onlinelibrary.wiley.com/doi/full/10.1002/1873-3468.14067)
Smaldino, P. E., & McElreath, R. (2016). The natural selection of bad science. Royal Society Open Science, 3(9), 17. doi:10.1098/rsos.160384
Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a World Beyond “p < 0.05”. American Statistician, 73, 1-19. doi:10.1080/00031305.2019.1583913