Em 2017 o anestesista John B. Carlisle publicou um artigo [1] em que ele propôs um método para detecção de fraudes em estudos clínicos randomizados e aplicou o método em mais de 5000 artigos publicados. A ideia central do método é bastante simples: publicações médicas quase sempre contém uma tabela (tipicamente a Tabela 1) em que mostram vários dados de baseline dos grupos controle e tratado (idade, sexo, BMI, comorbidades, medicações que os pacientes usam, resultados de exames, etc). Se o estudo é randomizado, como esses dados de baseline são independentes da intervenção que será estudada, espera-se que se calcularmos p-valores para comparar os grupos tratado e controle em cada uma dessas variáveis observaremos uma distribuição uniforme entre 0 e 1. Carlisle pega todos os p-valores calculados para variáveis de baseline e os combina usando um método padrão de combinação de p-valores [2]. A ideia é que se os dados são fabricados e os fraudadores são estatisticamente ingênuos — por exemplo, inventam valores à mão, sem recorrer a geradores automáticos de números pseudo-aleatórios — então padrões estranhos podem aparecer. Por exemplo, os fraudadores poderiam ter uma tendência a produzir dados de baseline que são “bons demais para ser verdade” — grupos controle e tratado mais parecidos do que se esperaria obter por um processo aleatório — e nesse caso o p-valor combinado seria excessivamente próximo de 1.
A análise de Carlisle gerou muita repercussão pois ele descobriu que os p-valores obtidos para as mais de 5000 publicações não se comportam da forma que se esperaria, isto é, não seguem uma distribuição uniforme entre 0 e 1 — isso sugeriria que uma quantidade grande de artigos médicos publicados contém fraudes. Vários comentadores (e na verdade o próprio Carlisle) notaram que o método possui muitas limitações [3] e que na verdade ele muitas vezes detecta nada mais do que simples erros na Tabela 1 do artigo em vez de fraudes.
Durante a pandemia, com toda a polêmica e politização em torno das drogas reposicionadas, os seguidores de Carlisle trabalharam intensamente usando ferramentas estatísticas para investigar possíveis fraudes em estudos clínicos. Um nome notável nesse meio é o médico australiano Kyle Sheldrick. O resultado de suas investigações influenciam bastante os ciclos de notícias e também em alguma medida decisões de revistas científicas sobre publicações e retratações.
O que eu acho de Sheldrick? Ele tem conhecimentos de estatística bastante acima da média no meio em que ele circula, formado majoritariamente por pessoas com formação em ciências biológicas. Não é nenhum idiota, faz algumas boas análises, e não deve ser confundido com outras pessoas que já critiquei por aqui que são completamente ignorantes e espalham, por exemplo, boatos sobre o c19 study multiplicar p-valores. No entanto, ele é um sujeito bastante viesado que relata de forma bastante exagerada os problemas que encontra nas publicações em que não gosta das conclusões e não dá muita bola para problemas similares ou maiores que aparecem nas publicações em que ele gosta das conclusões. Bom, para dizer a verdade, em certa medida quase todo mundo que comenta pesquisa publicamente durante a pandemia é um pouco culpado disso. Todo estudo tem suas limitações e você pode usar uma retórica que faz elas parecerem problemas pequenininhos ou falhas fatais.
Por que estou falando disso? Alguns meses atrás Sheldrick postou em seu blog uma acusação de fraude contra um estudo de 2017 em que um dos autores é Paul Marik, um dos membros do FLCCC (Front Line COVID-19 Critical Care Alliance). O FLCCC é um grupo de médicos nos Estados Unidos que faz o papel que as agências reguladoras e sociedades médicas deveriam fazer se o sistema funcionasse — orientam protocolos de tratamento baseados em evidências e análises inteligentes de risco e benefício. Eles sempre acertam? Provavelmente não, mas acertam bem mais do que as agências reguladoras e sociedades médicas, o que também não é difícil. Naturalmente, há uma rivalidade entre Sheldrick e o FLCCC, já que Sheldrick e colaboradores são defensores apaixonados do mainstream.
A acusação de Sheldrick contra Marik é baseada numa adaptação inválida do método de Carlisle. Carlisle usou seu método apenas para variáveis contínuas e Sheldrick tentou uma adaptação ingênua do método para variáveis dicotômicas. Só que aí aparecem sutilezas que um médico com conhecimentos de estatística, diferentemente de alguém que conhece um pouquinho mais a fundo teoria de probabilidade, não compreende. Falando de forma resumida, quando lidamos com variáveis discretas que podem assumir apenas um número pequeno de valores, distribuições de p-valores se desviam bastante de uma distribuição uniforme e esses desvios se acumulam quando combinamos vários p-valores, gerando resultados absurdos. Sheldrick apagou seu post original, por razões que não são claras. Ele nunca se retratou publicamente e manteve um post em que responde a alguns críticos (que não foram também lá muito hábeis em apontar com precisão o problema central). Eu apontei o problema na seção de comentários do post, mas Sheldrick nunca respondeu.
Recentemente eu descobri que Nick Brown, outro médico que se tornou “detetive de dados”, havia postado em seu blog em outubro de 2021 uma análise de dois estudos do grupo de Flavio Cadegiani (relacionados a proxalutamida e dutasterida para o tratamento de covid) em que ele comete o mesmo erro que Sheldrick cometeu na análise do estudo de Paul Marik: adaptação inválida do método de Carlisle para variáveis dicotômicas, ignorando diferenças importantes entre variáveis discretas e contínuas. Parece então que pode haver uma pequena epidemia de “detetives de dados” cometendo esse erro e manchando a reputação de pessoas honestas no processo. Pessoas que têm formação suficiente para parecerem eruditos num meio em que ninguém domina realmente o tema, mas que na verdade não tem uma formação tão boa assim e cometem erros bobos. Tendo em vista tudo isso, eu escrevi um preprint sobre essa questão, explicando o problema em detalhes:
On the incorrect use of Carlisle’s method for dichotomous variables
Nele proponho uma adaptação correta do método de Carlisle para variáveis dicotômicas e refaço as análises de Kyle Sheldrick e Nick Brown. Tudo isso deve parecer bastante trivial para um probabilista profissional, quer dizer, não estou dizendo que fiz alguma grande contribuição original aí, mas alguém precisava limpar a bagunça que os “detetives de dados” formados em ciências biológicas fizeram.
Notas de rodapé:
[2] O método de Stouffer, por exemplo. Esses métodos são úteis para fazer metanálises. Tratam-se de métodos para combinar várias variáveis aleatórias independentes com distribuição uniforme entre 0 e 1 numa única variável aleatória com distribuição uniforme entre 0 e 1, sendo a variável combinada uma função monotonicamente crescente das variáveis dadas.
[3] Por exemplo, o método de combinação de p-valores supõe independência das variáveis de baseline, o que em geral é falso. Randomizações estratificadas também podem gerar distribuições estranhas para os p-valores quando o seu cálculo não leva em conta a estratificação.