O desconforto ronda algumas áreas da ciência. Embora a possibilidade de replicação dos resultados por grupos independentes seja um dos pilares da ciência moderna, estudos de um número cada vez maior de campos se caracterizam pela impossibilidade ou inviabilidade de reprodução. O impasse atinge tanto disciplinas relativamente novas e dependentes de computadores – como a genômica e a proteômica – quanto áreas consolidadas há mais tempo, como a biologia de campo. Na semana passada, a revista dedicou à questão uma série de cinco artigos que discutem o problema e propõem possíveis soluções.
Os campos que dependem de ferramentas computacionais para a coleta e análise de dados estão entre os que enfrentam de forma mais dramática os desafios da replicação de dados, por um motivo simples: nem todos os laboratórios dispõem dos equipamentos necessários para refazer esses experimentos. “Seria necessário um volume extraordinário de recursos para replicar de forma independente o Sloan Digital Sky Survey”, exemplifica o bioestatístico Roger Peng num dos artigos da série, referindo-se a um projeto ambicioso de mapeamento do céu que já obteve imagens tridimensionais de quase um milhão de galáxias.
O problema se repete em campos emergentes da biologia molecular, como genômica, proteômica, metabolômica e outras disciplinas com o mesmo sufixo, nas quais os pesquisadores lidam com uma grande quantidade de dados que só podem ser analisados com ferramentas computacionais poderosas. A dificuldade para reprodução desses estudos pode levar a prejuízos importantes, como mostrou o exemplo citado por John Ioannidis e Muin Khoury. Eles evocaram o caso de um estudo segundo o qual assinaturas gênicas específicas poderiam ser usadas para prever a eficácia da quimioterapia contra alguns tipos de câncer. As conclusões do estudo motivaram a realização de testes clínicos dos marcadores em questão, mas os ensaios não foram adiante depois que se constatou que era impossível replicar os resultados do estudo.
Mas não é apenas o acesso à tecnologia que limita a possibilidade de reprodução dos estudos. Mesmo as pesquisas com animais de laboratório podem apresentar dificuldades sérias de reprodução. Num dos artigos da Science, dois especialistas no estudo da cognição de primatas explicam que, nesse campo de estudo, as conclusões dos experimentos com animais de laboratório dificilmente podem ser extrapoladas para animais selvagens ou mesmo de outros laboratórios. “Diferentes populações cativas podem ter tido diferentes experiências relevantes para uma tarefa cognitiva específica”, explicam.
Na maioria dos casos, a transparência é a melhor receita para facilitar a reprodutibilidade dos estudos. No caso das pesquisas que envolvem a observação do comportamento de animais selvagens, por exemplo, os cientistas podem ajudar seus pares tornando públicos os registros feitos em campo com a ajuda de câmeras de vídeo ou rastreamento por satélite. Em outro artigo da série, Michael Ryan, da Universidade do Texas em Austin, propõe que, ao submeter um estudo para publicação, os pesquisadores sejam obrigados a mandar também os dados primários colhidos na pesquisa.
Transparência é também a chave para a replicabilidade dos estudos que dependem de ferramentas computacionais. No caso das ciências -ômicas, muitos dos dados gerados já são depositados em repositórios de acesso público. Mas isso não impede a dificuldade de replicação dos resultados, como lembram John Ioannidis e Muin Khoury: “é um desafio verificar que os dados e protocolos completos foram de fato depositados, que os arquivos estão em condições de ser acessados e que os resultados são replicáveis”, ponderam.
Os dois autores acreditam que as agências de fomento à pesquisa têm um papel importante no sentido de tornar os dados acessíveis. Eles sugerem que essas agências ofereçam bônus aos pesquisadores que disponibilizarem os dados primários de seus estudos e apliquem punições aos grupos que não tornarem acessíveis as informações necessárias para a replicação do estudo.
Um papel importante cabe também aos periódicos que publicam os artigos científicos. Roger Peng sugere que essas revistas exijam dos pesquisadores que submetam, junto com os artigos que envolvam ferramentas computacionais, não só os dados usados na análise, mas também o código-fonte dos programas usados em seu tratamento. Em seu artigo para a Science, ele disse estar estimulando a transparência dos dados no periódico Biostatistics, de cujo corpo editorial ele faz parte. Sempre que os autores o permitem, a revista publica on-line o código e os dados usados em seus artigos, que recebem uma classificação indicativa da transparência dos dados.
De qualquer forma, não custa lembrar que a preocupação com a transparência e a replicabilidade não deve substituir o rigor na coleta e análise dos dados. Como ressaltou Peng “o fato de uma análise ser reprodutível não garante a qualidade, correção ou validade dos resultados publicados”.
Arte: Detalhe de 10 Marilyns, serigrafia de 1967 de Andy Warhol
Leia também:
O método científico não é mais aquele?
Teoria do fracasso