Conteúdos

Conteúdos

Acompanhe conteúdos sobre planejamento experimental, análise estatística e reprodutibilidade na ciência sugeridos pelo NEPER. Sugestões de referências relevantes que venham a se juntar a essa lista serão muito bem-vindas!

 

A cultura do “publique ou pereça” é culpada pela crise de reprodutibilidade

Nature,: 20 January 2025

https://www.nature.com/articles/d41586-024-04253-w

A chamada cultura do “publique ou pereça” é frequentemente apontada como um dos principais fatores por trás da crise de reprodutibilidade científica. Um levantamento realizado com mais de 1.600 pesquisadores da área biomédica também identificou o uso de amostras reduzidas e a seleção enviesada de dados como causas centrais desse problema. De acordo com uma pesquisa divulgada em novembro, quase 75% dos cientistas biomédicos acreditam que a ciência enfrenta, de fato, uma crise de reprodutibilidade, sendo a pressão por publicar o motivo mais citado. O estudo, publicado na revista PLoS Biology¹, ouviu autores de artigos científicos publicados ao longo de um ano, a partir de 1º de outubro de 2020, em 400 periódicos biomédicos escolhidos aleatoriamente. Ao todo, 1.630 pesquisadores responderam ao questionário, representando mais de 80 países. A maioria dos participantes era composta por homens (59%) e por professores ou pesquisadores líderes de grupo (72%). Além disso, 42% atuavam nos Estados Unidos, no Canadá ou no Reino Unido. Segundo os dados coletados, 62% dos entrevistados afirmaram que a pressão para publicar contribui para a irreprodutibilidade “sempre” ou “com muita frequência”. Para Kelly Cobey, psicóloga social do Instituto do Coração da Universidade de Ottawa e autora principal do estudo, esses resultados deixam claro que o problema está enraizado na cultura do próprio sistema de pesquisa. Trata-se, segundo ela, de um ambiente que prioriza o volume de publicações em detrimento da qualidade dos resultados. Cobey ressalta que a falta de reprodutibilidade científica não é um fenômeno recente nem restrito à biomedicina, tendo sido documentado em diversas áreas ao longo de décadas. O novo estudo, explica, buscou aprofundar achados de uma pesquisa publicada na Nature em 2016, na qual mais de 70% dos 1.576 cientistas entrevistados relataram dificuldades para reproduzir resultados obtidos por outros pesquisadores. Entre outros fatores apontados no estudo atual como contribuintes “sempre” ou “muito frequentes” para a irreprodutibilidade estão o tamanho inadequado das amostras (55%), estudos finalizados que nunca chegam a ser publicados (54%), análises estatísticas mal conduzidas (50%) e a escolha seletiva de resultados (47%). Para Elisabeth Bik, microbiologista e investigadora científica na região da Baía de São Francisco, esses achados confirmam suspeitas discutidas há pelo menos duas décadas. “Há um aumento generalizado de diferentes tipos de erros”, afirma. “Alguns decorrem de descuido, enquanto outros parecem envolver má conduta.” Bik, que já contribuiu para mais de 1.300 retratações de artigos científicos, passou a atuar na defesa da integridade científica após descobrir que um de seus próprios trabalhos havia sido plagiado. Ela concorda que a pressão por produtividade acadêmica desempenha um papel central nesse cenário.

Reprodutibilidade e transparência: o que  está acontecendo e como podemos ajudar?

Nature Communications volume 16, Article number: 1082 (2025)

https://www.nature.com/articles/s41467-024-54614-2

Problemas com a reprodutibilidade experimental afetam todas as áreas da ciência, com opiniões divergentes sobre suas causas e soluções. Especialistas de diferentes campos explicam que reprodutibilidade se refere à capacidade de repetir experimentos com os mesmos dados, testes de robustez avaliam se diferentes análises produzem os mesmos resultados, e replicabilidade envolve obter os mesmos resultados com novos dados. A confusão entre esses termos é comum, e há um movimento para que “repetibilidade” seja usado como termo geral. A importância da reprodutibilidade e transparência reside na necessidade de validar e contestar evidências científicas, assegurando que descobertas sejam confiáveis e verificáveis, o que é fundamental para o progresso e integridade da ciência. O artigo aborda a importância da reproducibilidade e transparência na ciência, destacando que experimentos não reproduzíveis podem revelar aspectos relacionados aos métodos, reagentes, equipamento, operador ou variabilidade biológica, sendo essenciais para o avanço do conhecimento, especialmente quando analisados cuidadosamente para identificar discrepâncias. A reproducibilidade é vista por vários professores como fundamental para garantir a confiabilidade das descobertas, permitindo que outros pesquisadores construam sobre elas e economizando recursos. A transparência inclui divulgação detalhada de métodos e dados brutos, sendo crucial para a replicabilidade. O texto também discute a crise atual de reproducibilidade na ciência, que muitas vezes é atribuída à busca por resultados perfeitos, pressão por pioneirismo e a uma espiral de práticas insustentáveis que prejudicam o avanço científico. Apesar dos desafios, há uma resposta positiva da comunidade científica, reconhecendo a necessidade de reformas e melhorias no processo científico. O texto aborda a crescente disparidade entre o valor de mercado das publicações científicas e a avaliação bibliométrica dos pesquisadores, contrapondo-se à necessidade fundamental do avanço científico de compartilhar conhecimentos de forma controlada e reproduzível. Essa contradição tem levado a uma crise na ciência, impulsionada pela busca por publicações rápidas e atrativas, muitas vezes comprometendo a integridade acadêmica e a qualidade do trabalho. A dependência excessiva de métricas scientométricas, o negócio da publicação acadêmica e a falta de responsabilidade financeira sobre resultados irreprodutíveis contribuem para um ambiente onde o foco passa a ser a carreira mais do que o progresso real da ciência. Para melhorar essa situação, os autores sugerem ações como maior transparência na pesquisa, incluindo divulgação de dados e métodos, incentivo à documentação de tentativas frustradas, uso de ferramentas digitais para promover cultura de reproducibilidade e o fortalecimento do pensamento crítico. Também destacam a importância do papel dos revisores, que podem solicitar maior transparência e questionar rigorosamente os estudos, promovendo uma avaliação mais criteriosa e confiável da ciência.

 

 

Será que o machine learning pode alimentar uma crise de reprodutibilidade na ciência?

Nature  NEWS 26 July 2022

https://www.nature.com/articles/d41586-022-02035-w

Da biomedicina às ciências políticas, os pesquisadores usam cada vez mais o machine learning como ferramenta para fazer previsões com base em padrões em seus dados. Mas as afirmações em muitos desses estudos provavelmente são exageradas, de acordo com dois pesquisadores da Universidade de Princeton, em Nova Jersey. Eles querem alertar sobre o que chamam de “crise de reprodutibilidade iminente” nas ciências baseadas em machine learning. Três armadilhas a evitar no machine learning O machine learning está sendo vendido como uma ferramenta que os pesquisadores podem aprender em poucas horas e usar sozinhos — e muitos seguem esse conselho, diz Sayash Kapoor, pesquisador de machine learning em Princeton. E poucos cientistas percebem que os problemas que encontram ao aplicar algoritmos de inteligência artificial (IA) são comuns a outros campos, diz Kapoor, coautor de um preprint sobre a “crise”. Os revisores por pares não têm tempo para examinar esses modelos, então a academia atualmente carece de mecanismos para eliminar artigos irreproduzíveis, afirma ele. Kapoor e seu coautor, Arvind Narayanan, criaram diretrizes para que os cientistas evitem essas armadilhas, incluindo uma lista de verificação explícita a ser submetida com cada artigo. A definição de reprodutibilidade de Kapoor e Narayanan é ampla. Ela afirma que outras equipes devem ser capazes de replicar os resultados de um modelo, dados os detalhes completos sobre dados, código e condições — frequentemente chamada de reprodutibilidade computacional, algo que já é uma preocupação para os cientistas de machine learning. A dupla também define um modelo como irreproduzível quando os pesquisadores cometem erros na análise de dados que significam que o modelo não é tão preditivo quanto alegado. Julgar tais erros é subjetivo e geralmente requer um conhecimento profundo da área em que o machine learning está sendo aplicado. Alguns pesquisadores cujo trabalho foi criticado pela equipe discordam que seus artigos sejam falhos ou dizem que as afirmações de Kapoor são muito fortes. Em estudos sociais, por exemplo, pesquisadores desenvolveram modelos de machine learning que visam prever quando um país provavelmente entrará em guerra civil. Kapoor e Narayanan afirmam que, uma vez corrigidos os erros, esses modelos não apresentam desempenho melhor do que as técnicas estatísticas padrão. Mas David Muchlinski, cientista político do Instituto de Tecnologia da Geórgia, em Atlanta, cujo artigo² foi examinado pela dupla, afirma que o campo da previsão de conflitos tem sido injustamente difamado e que estudos subsequentes corroboram seu trabalho. Mais de 1.200 pessoas se inscreveram no que inicialmente era um pequeno workshop online sobre reprodutibilidade, realizado em 28 de julho, organizado por Kapoor e colegas, com o objetivo de encontrar e disseminar soluções. “A menos que façamos algo assim, cada área continuará encontrando esses problemas repetidamente”, diz ele. O otimismo excessivo em relação ao poder dos modelos de machine learning pode ser prejudicial quando os algoritmos são aplicados em áreas como saúde e justiça, afirma Momin Malik, cientista de dados da Clínica Mayo, em Rochester, Minnesota, que deve palestrar no workshop. A menos que a crise seja enfrentada, a reputação do machine learning pode ser prejudicada, diz ele. Kapoor e Narayanan afirmam que problemas semelhantes ocorrem na aplicação do machine learning a diversas ciências. A dupla analisou 20 revisões em 17 áreas de pesquisa e contabilizou 329 artigos científicos cujos resultados não puderam ser totalmente replicados devido a problemas na forma como o machine learning foi aplicado. O próprio Narayanan não está imune: um artigo de 2015 sobre segurança da computação, do qual ele foi coautor, está entre os 329. “É realmente um problema que precisa ser abordado coletivamente por toda a comunidade”, diz Kapoor. A questão mais proeminente que Kapoor e Narayanan destacam é o “vazamento de dados”, quando as informações do conjunto de dados com o qual um modelo aprende incluem dados que ele usa posteriormente para avaliação. Se esses dados não forem totalmente separados, o modelo efetivamente já viu as respostas e suas previsões parecem muito melhores do que realmente são. A equipe identificou oito tipos principais de vazamento de dados contra os quais os pesquisadores podem ficar atentos. Por exemplo, o vazamento temporal ocorre quando os dados de treinamento incluem pontos de um período posterior aos dados de teste — o que é um problema porque o futuro depende do passado. Como exemplo, Malik cita um artigo de 2011⁴ que afirmava que um modelo que analisava o humor dos usuários do Twitter poderia prever o valor de fechamento do mercado de ações com uma precisão de 87,6%. Mas, como a equipe testou o poder preditivo do modelo usando dados de um período anterior a parte do conjunto de treinamento, o algoritmo efetivamente pôde prever o futuro, afirma ele. Problemas mais amplos incluem o treinamento de modelos em conjuntos de dados mais restritos do que a população que eles devem refletir, diz Malik. Outro problema é que os algoritmos muitas vezes acabam dependendo de atalhos que nem sempre funcionam, diz Jessica Hullman, cientista da computação da Northwestern University em Evanston, Illinois, que falará no workshop. A alta precisão das previsões em testes muitas vezes engana as pessoas, fazendo-as pensar que os modelos estão captando a “verdadeira estrutura do problema” de uma maneira semelhante à humana, afirma ela. A situação é similar à crise de replicação na psicologia, na qual as pessoas depositam muita confiança em métodos estatísticos, acrescenta. A euforia em torno das capacidades do machine learning contribuiu para que os pesquisadores aceitassem seus resultados com muita facilidade, diz Kapoor. A própria palavra “previsão” é problemática, afirma Malik, já que a maioria das previsões é, na verdade, testada retrospectivamente e não tem nada a ver com prever o futuro. A solução de Kapoor e Narayanan para lidar com o vazamento de dados é que os pesquisadores incluam em seus manuscritos evidências de que seus modelos não apresentam cada um dos oito tipos de vazamento. Os autores sugerem um modelo para essa documentação, que chamam de “folhas de informações do modelo”. Nos últimos três anos, a biomedicina avançou muito com uma abordagem semelhante, afirma Xiao Liu, oftalmologista clínica da Universidade de Birmingham, no Reino Unido, que ajudou a criar diretrizes para a elaboração de relatórios de estudos que envolvem IA, por exemplo, em triagem ou diagnóstico. Em 2019, Liu e seus colegas descobriram que apenas 5% dos mais de 20.000 artigos que utilizavam IA para imagens médicas eram descritos com detalhes suficientes para discernir se funcionariam em um ambiente clínico. As diretrizes não melhoram diretamente os modelos de ninguém, mas “tornam muito óbvio quem fez um bom trabalho e, talvez, quem não fez”, diz ela, o que é um recurso que os órgãos reguladores podem aproveitar. A colaboração também pode ajudar, afirma Malik. Ele sugere que os estudos envolvam tanto especialistas na disciplina relevante quanto pesquisadores em machine learning, estatística e amostragem de pesquisas. Áreas em que o machine learning encontra pistas para pesquisas subsequentes — como a descoberta de medicamentos — provavelmente se beneficiarão enormemente da tecnologia, diz Kapoor. Mas outras áreas precisarão de mais trabalho para demonstrar sua utilidade, acrescenta ele. Embora o machine leraning ainda seja relativamente nova em muitas áreas, os pesquisadores devem evitar o tipo de crise de confiança que se seguiu à crise de replicação na psicologia há uma década, afirma ele. “Quanto mais adiarmos, maior será o problema.”

 

Reprodutibilidade em pesquisas baseadas em machine learning: visão geral, barreiras e fatores motivadores

Wiley Online Library 14 April 2025

https://onlinelibrary.wiley.com/doi/full/10.1002/aaai.70002

Muitas áreas de pesquisa estão atualmente lidando com problemas relacionados aos baixos níveis de reprodutibilidade. Questões como a falta de transparência, de dados ou código, a baixa adesão aos padrões e a sensibilidade das condições do machine learning (ML) fazem com que muitos artigos não sejam sequer reproduzíveis em princípio. Nos casos em que são reproduzíveis, os experimentos de reprodutibilidade têm encontrado níveis preocupantemente baixos de similaridade com os resultados originais. Apesar dos apelos anteriores de pesquisadores de machine learning sobre esse tema e de várias iniciativas argumentamos que a comunidade em geral continua a tratar essa questão com muita leviandade. A baixa reprodutibilidade ameaça a confiança e a integridade dos resultados da pesquisa. Portanto, neste artigo, os autores apresentam uma nova perspectiva sobre as principais barreiras e impulsionadores (tanto procedimentais quanto técnicos) para o aumento da reprodutibilidade em vários níveis (métodos, código, dados e experimentos). Resultados não confiáveis podem prejudicar o progresso científico, desperdiçando recursos, reduzindo a confiança, retardando descobertas e minando a base para pesquisas futuras. No entanto, muitos campos científicos enfrentam atualmente questões cruciais sobre a reprodutibilidade dos resultados de pesquisa. As preocupações com uma “crise de reprodutibilidade” foram levantadas com maior destaque nas ciências biomédicas e sociais, mas a pesquisa que emprega inteligência artificial (IA) em geral, e ML em particular, também está sob escrutínio. O ML está se integrando cada vez mais profundamente aos métodos de pesquisa, não apenas na ciência da computação, mas em todas as disciplinas. Portanto, as questões relativas à reprodutibilidade do machine learning levantam preocupações urgentes sobre a confiabilidade e a validade das descobertas, não apenas para cientistas da computação, mas também para grandes áreas da pesquisa científica de ponta em diversas disciplinas. As causas da baixa reprodutibilidade podem ser técnicas, metodológicas ou culturais. Em linhas gerais, algumas causas, como a falta de compartilhamento de dados e código, a falta ou a baixa adesão a padrões, o projeto de pesquisa inadequado ou incentivos insuficientes, podem ser consideradas comuns a muitos domínios. Além dos desafios comuns enfrentados por outras disciplinas, o uso de ML introduz obstáculos únicos para a reprodutibilidade, incluindo a sensibilidade às condições de treinamento de ML, fontes de aleatoriedade, não determinismo inerente, custos (econômicos e ambientais) de recursos computacionais e o uso crescente de ferramentas de ML automatizado. Entre os aspectos metodológicos e culturais, as especificidades da pesquisa em ML, como o “vazamento de dados”, bem como questões específicas de ML relacionadas a vieses não observados, falta de transparência, relato seletivo de resultados e culturas de publicação, também desempenham um papel. A cultura do “publish or perish” permeia a academia, pressionando os pesquisadores a publicar o máximo possível de artigos nos periódicos ou conferências de maior prestígio ou classificação. Por sua vez, essa cultura distorce os incentivos para atalhos, dando origem às chamadas “práticas de pesquisa questionáveis” e “práticas de design, análise ou relato que foram questionadas”. devido ao potencial de a prática ser empregada com o propósito de apresentar evidências tendenciosas em favor de uma afirmação”. O artigo tem como objetivo fornecer uma visão geral detalhada da reprodutibilidade e suas barreiras e impulsionadores associados no ML. O texto fornece uma categorização contextual das barreiras e impulsionadores para os quatro tipos de reprodutibilidade no ML (descrição, código, dados e experimento), com referência específica à pesquisa em ciência da computação e áreas biomédicas. O objetivo é analisar o estado atual da reprodutibilidade no ML, fornecer conselhos concretos sobre estratégias para que os pesquisadores mitiguem problemas de reprodutibilidade em seus próprios trabalhos, destacar áreas-chave onde pesquisas adicionais são necessárias em áreas específicas e fomentar ainda mais a discussão sobre a ameaça representada por essas questões urgentes. O artigo está estruturado da seguinte forma: na seção “Definindo Reprodutibilidade”, esclarece os termos e definições operacionais. Em seguida, analisa as barreiras ao aumento da reprodutibilidade da pesquisa orientada por ML  e, posteriormente, os fatores que impulsionam a reprodutibilidade do ML, incluindo diferentes ferramentas, práticas e intervenções. Aqui, também apresenta uma comparação dos pontos fortes e das limitações potenciais desses fatores. Por fim, o texto mapeia as barreiras aos fatores impulsionadores para ajudar a determinar a viabilidade de várias opções para aprimorar a reprodutibilidade do ML.

 

Desafios da IA reproduzível na ciência de dados biomédicos

Springer Nature Link: 10 January 2025

https://link.springer.com/article/10.1186/s12920-024-02072-6

A irreprodutibilidade da IA na ciência de dados biomédicos frequentemente decorre de diversos fatores-chave, incluindo o não determinismo inerente aos modelos de IA, variações nos dados, pré-processamento de dados, custos computacionais e variações de hardware. Isso surge de várias fontes inerentes à arquitetura dos modelos, aos processos de treinamento, à aceleração por hardware ou mesmo às definições matemáticas. Por exemplo, os Modelos de Aprendizagem Linear (LLMs) podem produzir saídas diferentes para a mesma entrada devido à amostragem estocástica durante a geração de texto, à aleatorização em processos de treinamento, como embaralhamento de dados e inicialização de pesos, e à variabilidade induzida pelo hardware proveniente de recursos de computação paralela. Os fatores que contribuem para isso incluem inicialização aleatória de pesos, descida de gradiente em mini-lotes, técnicas de regularização por dropout e aceleração por hardware. O uso de métodos de otimização não determinísticos, como a Descida de Gradiente Estocástica (SGD) e suas variantes, que utilizam mini-lotes aleatórios de dados, agrava ainda mais esse efeito. Além disso, decisões arquitetônicas como a escolha de funções de ativação e o uso de camadas de dropout para regularização introduzem variabilidade que impacta a reprodutibilidade. Por exemplo, a desativação aleatória de neurônios durante o treinamento por meio de dropout pode levar a comportamentos diferentes do modelo entre as execuções. Funções de ativação com transições abruptas, como sigmoide ou tangente hiperbólica (tanh), podem amplificar problemas de precisão de ponto flutuante, particularmente quando combinadas com aceleração por hardware (por exemplo, GPUs ou TPUs). Além disso, a própria aceleração por hardware (por exemplo, usando GPUs) introduz variações aleatórias nos dados devido ao processamento paralelo e às limitações de precisão de ponto flutuante. Variações entre os conjuntos de dados de treinamento e teste podem levar a problemas de irreprodutibilidade, como sobreajuste (overfitting). Por exemplo, um modelo treinado com dados genômicos de alta qualidade pode apresentar desempenho ruim quando testado em conjuntos de dados que contêm artefatos. Esse desequilíbrio pode fazer com que o modelo generalize mal, levando a taxas de erro mais altas ou diagnósticos incorretos para grupos sub-representados, como a não detecção de diabetes de início precoce em indivíduos mais jovens. Além disso, essa sub-representação pode fazer com que o desempenho do modelo varie drasticamente entre diferentes configurações ou populações de teste, comprometendo, em última análise, sua reprodutibilidade. Além disso, o vazamento de dados — quando informações do conjunto de teste influenciam inadvertidamente o processo de treinamento — pode inflar artificialmente as métricas de desempenho, fazendo com que os modelos falhem em conjuntos de dados independentes e, assim, prejudicando a reprodutibilidade da IA. O pré-processamento de dados é crucial para a reprodutibilidade de modelos de IA, particularmente em ciência de dados biomédicos. Técnicas como normalização, seleção de características, vetorização, redução de dimensionalidade e integração de dados influenciam significativamente o treinamento e a análise subsequente. A escolha dos métodos dentro desses processos pode levar a variações na qualidade dos dados de treinamento e teste ou introduzir aleatoriedade no processo de treinamento. Por exemplo, a normalização em lote — uma técnica de regularização amplamente utilizada em aprendizado profundo — introduz variações aleatórias nos dados, principalmente durante o treinamento, devido ao cálculo das estatísticas do mini-lote. Como mencionado, a normalização ou seleção de características inadequada, aplicada antes da divisão dos dados em conjuntos de treinamento e teste, pode resultar em vazamento de dados, impactando ainda mais o treinamento. Além disso, métodos de redução de dimensionalidade como t-SNE e UMAP são inerentemente não determinísticos, pois dependem da resolução de problemas de otimização não convexos com múltiplas soluções possíveis, contribuindo para a variabilidade no pré-processamento de dados. Esses desafios são particularmente relevantes para conjuntos de dados biomédicos complexos e de grande escala, onde métodos de pré-processamento ideais ainda não foram estabelecidos. Os custos computacionais para modelos de IA, especialmente em domínios biomédicos complexos, são substanciais e impactam significativamente a reprodutibilidade. Por exemplo, modelos como o AlphaFold3 abordam problemas NP-difíceis, com a complexidade computacional aumentando exponencialmente com o tamanho da entrada, tornando a verificação por terceiros intensiva em recursos. Os cálculos em GPU e TPU podem produzir resultados não determinísticos devido ao processamento paralelo, operações de ponto flutuante, arredondamento estocástico e diferenças de software em frameworks como TensorFlow e PyTorch. Essas variações induzidas pelo hardware, juntamente com os altos custos computacionais, dificultam os esforços de verificação independente e exacerbam os desafios de reprodutibilidade. Principais desafios para alcançar IA reproduzível em ciência de dados biomédicos Alcançar IA reproduzível em ciência de dados biomédicos é um desafio devido às complexidades inerentes aos dados, modelos e processos de aprendizado, agravadas por um dilema da teoria dos jogos. A complexidade dos dados refere-se aos desafios decorrentes das características e da qualidade dos dados de entrada usados em modelos de IA biomédica. Esses desafios incluem alta dimensionalidade, onde conjuntos de dados com inúmeras características aumentam as demandas computacionais e complicam a modelagem, e heterogeneidade, que envolve variações em tipos de dados como texto, imagens e valores numéricos. Além disso, a multimodalidade, ou a necessidade de combinar diversas fontes de dados, como dados genômicos com imagens ou registros clínicos, amplifica ainda mais a complexidade. Problemas como dados faltantes e ruído exigem imputação ou limpeza, frequentemente introduzindo variabilidade, enquanto viés e desequilíbrio nos conjuntos de dados podem resultar em modelos que generalizam mal para populações ou classes sub-representadas. Conjuntos de dados de alta dimensionalidade, heterogêneos e multimodais, juntamente com dados faltantes ou desbalanceados, complicam o pré-processamento e introduzem variabilidade, dificultando a padronização de fluxos de trabalho reproduzíveis, especialmente em áreas biomédicas. Conjuntos de dados biomédicos frequentemente contêm diversos tipos de dados, como sequências genômicas, imagens e registros clínicos, cada um caracterizado por alta dimensionalidade e heterogeneidade. Essas características dificultam o desenvolvimento de técnicas de pré-processamento que padronizem os dados de forma eficaz, sem introduzir inconsistências. Sem estruturas de pré-processamento personalizadas e padronizadas, essas variações comprometem a reprodutibilidade dos modelos de IA. Além disso, técnicas de regularização e otimização, como dropout e normalização em lote, são empregadas para controlar o sobreajuste, mas podem introduzir variabilidade, aumentando o desafio do treinamento de modelos complexos. Embora modelos com maior complexidade frequentemente alcancem um desempenho notável em tarefas desafiadoras, isso ocorre à custa de uma menor reprodutibilidade. A complexidade do modelo aumenta significativamente o risco de sobreajuste e, embora as técnicas de regularização visem resolver esse problema, elas frequentemente introduzem variações adicionais que reduzem a reprodutibilidade. Por exemplo, o dropout, um método de regularização amplamente utilizado, desativa neurônios aleatoriamente durante o treinamento, resultando em diferentes configurações de modelo em cada iteração.

 

Intervenções de ciência aberta para melhorar a reprodutibilidade e a replicabilidade da pesquisa: uma revisão de escopo

Royal Society Open Science: 5 April 2025

https://royalsocietypublishing.org/rsos/article/12/4/242057/235595/Open-science-interventions-to-improve

A confiabilidade e a credibilidade dos resultados da pesquisa estão em questão. Isso é especialmente verdadeiro em relação à sua reprodutibilidade (definida neste artigo como a obtenção de resultados iguais ou semelhantes ao repetir análises de estudos anteriores usando o projeto, os dados e o código originais; cf. e replicabilidade (definida aqui como a obtenção de resultados iguais ou semelhantes ao repetir, total ou parcialmente, um estudo anterior. A reprodutibilidade e a replicabilidade, portanto, sustentam a credibilidade e a confiabilidade dos resultados de pesquisa em muitas áreas, especialmente em ciência, tecnologia, engenharia e matemática. Fundamental para este debate foram as falhas em reproduzir os resultados de estudos nas ciências médicas, comportamentais e sociais. Áreas como psicologia, pesquisa biomédica, economia e ciências sociais em geral testemunharam estudos com múltiplos laboratórios, cujos resultados indicaram níveis de reprodutibilidade variando entre 30 e 70%. Um artigo na Nature News em 2016 relatou resultados de uma pesquisa (ironicamente, eles próprios carentes de transparência) que destacou que entre 60 e 80% dos cientistas em várias disciplinas encontraram obstáculos na reprodução o trabalho de seus pares, com dificuldades igualmente notáveis encontradas ao tentar replicar seus próprios experimentos (40–60%). Dadas essas diferenças interdisciplinares, espera-se que os fatores e práticas que podem influenciar o nível de reprodutibilidade da pesquisa variem em sua eficácia (o que funciona, em que circunstâncias). Fatores que têm sido associados a níveis percebidos de baixa reprodutibilidade incluem a não publicação seletiva, práticas de pesquisa questionáveis, treinamento insuficiente em métodos de pesquisa e falta de transparência e acessibilidade aos dados. Intervenções para melhorar a reprodutibilidade podem ter como alvo essas práticas. Os defensores da ciência aberta acreditam que a abertura de métodos, materiais e comunidade melhorará a reprodutibilidade da ciência; no entanto, o acesso inadequado aos dados necessários para repetir experimentos ou análises continua sendo uma grande preocupação em toda a ciência. Para avaliar quais intervenções foram formalmente testadas quanto à sua eficácia na melhoria da reprodutibilidade da ciência, realizamos uma revisão exploratória da literatura.

Amrhein, V., & Greenland, S. (2018). Remove, rather than redefine, statistical significance. Nature Human Behaviour, 2(1), 4-4. doi:10.1038/s41562-017-0224-0

Amrhein, V., Greenland, S., & McShane, B. (2019). Retire statistical significance. Nature, 567(7748), 305-307. doi:10.1038/d41586-019-00857-9

Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E. J., Berk, R., . . . Johnson, V. E. (2018). Redefine statistical significance. Nature Human Behaviour, 2(1), 6-10. doi:10.1038/s41562-017-0189-z

Fidler, F., Thomason, N., Cumming, G., Finch, S., & Leeman, J. (2004). Editors can lead researchers to confidence intervals, but can’t make them think – Statistical reform lessons from medicine. Psychological Science, 15(2), 119-126. doi:10.1111/j.0963-7214.2004.01502008.x

Ioannidis, J. P. A. (2005). Why most published research findings are false. Plos Medicine, 2(8), 696-701. doi:10.1371/journal.pmed.0020124

Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A. J., Argamon, S. E., . . . Zwaan, R. A. (2018). Justify your alpha. Nature Human Behaviour, 2(3), 168-171. doi:10.1038/s41562-018-0311-x

Lazic, S. E. (2016) Experimental Design for Laboratory Biologists. Cambridge; [United Kingdom]: Cambridge University Press.

Leek, J. (2017). Five ways to fix statistics. Nature, 551(7682), 557-+.

Montgomery, D. C. (2009). Design and analysis of experiments (7th ed. ed.). Hoboken, N.J.: Wiley.

Munafo, M. R., Nosek, B. A., Bishop, D. V. M., Button, K. S., Chambers, C. D., du Sert, N. P., . . . Ioannidis, J. P. A. (2017). A manifesto for reproducible science. Nature Human Behaviour, 1(1), 9. doi:10.1038/s41562-016-0021

Nagy, G. A., Fang, C. M., Hish, A. J., Kelly, L., Nicchitta, C. V., Dzirasa, K., & Rosenthal, M. Z. (2019). Burnout and Mental Health Problems in Biomedical Doctoral Students. Cbe-Life Sciences Education, 18(2), 14. doi:10.1187/cbe.18-09-0198

Oehlert, G. W. (2000). A first course in design and analysis of experiments. New York ; [United Kingdom]: W.H. Freeman.

Pashler, H., & Harris, C. R. (2012). Is the Replicability Crisis Overblown? Three Arguments Examined. Perspectives on Psychological Science, 7(6), 531-536. doi:10.1177/1745691612463401

Wilson, S. L. et al. (2021). Sharing biological data: why, when, and how, FEBS Letters 595, 847–863 (https://febs.onlinelibrary.wiley.com/doi/full/10.1002/1873-3468.14067)

Smaldino, P. E., & McElreath, R. (2016). The natural selection of bad science. Royal Society Open Science, 3(9), 17. doi:10.1098/rsos.160384

Wasserstein, R. L., Schirm, A. L., & Lazar, N. A. (2019). Moving to a World Beyond “p < 0.05”. American Statistician, 73, 1-19. doi:10.1080/00031305.2019.1583913