A publicação recente dos resultados do estudo randomizado COPCOV do grupo do prestigiado pesquisador Nicholas White confirmaram de forma robusta a eficácia da hidroxicloroquina para a profilaxia pré-exposição para Covid. O resultado não trouxe qualquer surpresa para aqueles que já acompanhavam resultados de estudos anteriores e metanálises. O resultado pareceu surpreendente, no entanto, para as pessoas que durante a pandemia sistematicamente confundiram resultados positivos sem significância estatística com evidência de ineficácia. O significado dos resultados do COPCOV foram relatados de forma honesta na coluna no Nexo de Olavo Amaral. Embora Olavo nunca tenha se posicionado como defensor do tratamento precoce durante a pandemia, ele é das poucas pessoas com posições mais mainstream que acompanhava resultados de estudos, não fazia militância e nem fazia confusões com conceitos elementares de estatística.

O Instituto Questão de Ciência publicou posteriormente um texto que pelo título parece pretender ser uma resposta a Olavo Amaral. Como alguns temas mais técnicos de estatística são abordados no texto, muitos leitores leigos terão muita dificuldade em saber o que está certo e o que está errado. Ocorre que as críticas ao COPCOV feitas pelo IQC são todas ou erradas ou irrelevantes e meu propósito aqui é discutir essas críticas em detalhes. Essa discussão confirma mais uma vez que melhorar a educação estatística dos profissionais das ciências biológicas é algo urgente. Iniciarei falando dos pontos centrais que serão mais acessíveis a leitores leigos e depois entrarei em questões mais técnicas.

O desfecho primário considerado no COPCOV foi a incidência de Covid sintomática confirmada em laboratório. Para esse desfecho, os autores obtiveram um risco relativo (RR) de 0.85 (correspondendo a uma eficácia de 15%) e um p-valor de 0.051. Estamos portanto bem em cima do limiar da “significância estatística”, quer dizer, o p-valor ficou muito perto daquele valor de corte convencional arbitrário, o 0.05. Se esse fosse o único resultado do COPCOV, não haveria motivo para grande alvoroço, já que um p-valor tão próximo de 0.05 não é evidência muito substancial de eficácia.

O que é realmente relevante, no entanto, é o que acontece quando combinamos o COPCOV com os estudos anteriores numa metanálise. Metanálises combinam dados de vários estudos de forma a obter estimativas mais precisas (com margem de erro menor) da eficácia de uma intervenção e são mais relevantes do que resultados de estudos individuais. A metanálise fornecida pelos próprios autores do COPCOV dá um RR de 0.80 (correspondendo a uma eficácia de 20%), com um intervalo de confiança que vai de 0.71 a 0.91. O p-valor aqui é muito pequeno (p < 0.001). O resultado é extremamente robusto. É relevante também observar que o COPCOV individualmente produziu p-valores bem baixos em alguns desfechos secundários e terciários.

O texto do IQC recorre essencialmente a três estratégias para tentar desacreditar o novo resultado. Primeiro, ele gasta bastante tempo atacando o p-valor limítrofe obtido no desfecho primário do COPCOV. É verdade que esse p-valor sozinho não é evidência muito robusta de eficácia e que p-valores ligeiramente maiores ou menores poderiam ser obtidos se usássemos algum método um pouco diferente de cálculo. Mas tudo isso é irrelevante porque o que realmente importa é a estimativa que sai da metanálise. O IQC também critica a metanálise, mas essas críticas são muito fracas (vide seção 6 abaixo).

A segunda estratégia usada pelo IQC para desacreditar o resultado do COPCOV é a insistência em usar a redução absoluta de risco como medida de eficácia em vez de uma medida de eficácia baseada no risco relativo (RR). Essa estratégia tem sido muito usada durante a pandemia por autores que querem fazer de conta que o efeito de uma droga é muito pequeno. A redução absoluta de risco é a diferença entre a probabilidade de uma infecção ocorrer num paciente controle e a probabilidade de uma infecção ocorrer num paciente tratado. O problema dessa medida no contexto de um estudo de profilaxia é que ela reflete mais a probabilidade de infecção no paciente controle do que o efeito da droga em si. Por exemplo, se a probabilidade de infecção no controle for de apenas 1%, mesmo para uma droga 100% eficaz a redução absoluta de risco seria de apenas 1%. Ocorre que essa probabilidade de infecção no controle, diferentemente do efeito da droga, depende muito das condições particulares em que o estudo foi realizado. Por exemplo, essa probabilidade seria muito maior em uma população mais exposta durante o pico de uma onda de Covid. É verdade que o risco relativo também poderia depender das condições em que o estudo foi realizado, mas ele tende a ser bem mais estável que a redução absoluta de risco. Infelizmente, o famoso NNT (number needed to treat), medida de eficácia muito popular entre médicos, também é uma medida de eficácia inadequada nesse contexto, já que ele é nada mais que o inverso da redução absoluta de risco.

A discussão que o IQC faz na seção “O Gráfico ilusório” também nada mais é que uma outra forma da falácia de usar a redução absoluta de risco como medida de efeito. Quando você coloca valores de 0 a 100% no eixo vertical, você vai ver uma diferença muito pequena entre as curvas de incidência dos grupos tratado e controle simplesmente porque a incidência no grupo controle é pequena. Nesse caso é simplesmente impossível que a incidência no grupo tratado seja muito menor que a incidência no grupo controle em termos absolutos, já que negativa ela não poderia ser.

Finalmente, a terceira estratégia usada para negar o resultado do COPCOV é observar que não foi possível verificar uma redução de mortalidade ou gravidade da doença no estudo. Mas isso seria obviamente impossível num estudo de profilaxia pré-exposição, já que em um tal estudo a incidência de hospitalização e morte é necessariamente muito baixa. Note que a população basal é saudável e apenas uma minoria será infectada — e apenas uma minoria dessa minoria terá doença grave. Cabe observar que os estudos randomizados das vacinas de Covid também não tinham poder para avaliar redução de gravidade e mortalidade, pelo mesmo motivo. O desfecho primário nesses estudos de vacina foi infecção sintomática e nesse contexto da vacina os críticos dos estudos de profilaxia com hidroxicloroquina nunca levantaram essa objeção.

Vamos agora discutir alguns pontos mais técnicos elencados pelo texto do IQC. O que vem abaixo só será inteligível para leitores com conhecimentos mais substanciais de estatística.

1 – Teste exato de Fisher

Segundo o texto do IQC:

“Embora útil em certas situações, o teste exato de Fisher não é adequado para avaliar a eficácia de medicamentos, como a hidroxicloroquina, em ensaios clínicos de COVID-19.

Usar o teste exato de Fisher em um grande estudo como este, com milhares de participantes (quase 5 mil, no total), é tentar usar uma pinça para mover uma pedra gigante. A pinça pode ser perfeita para pegar coisas pequenas, mas é totalmente inadequada para lidar com algo tão grande. Da mesma forma, esse teste é mais recomendado para amostras pequenas e poucos dados.”

Isso está completamente errado e mostra o quão ignorantes em estatística são os autores do texto do IQC. Testes estatísticos podem ser divididos em duas categorias: a primeira é feita pelos testes que usam resultados de teoria assintótica de distribuições, isto é, teoremas como o Teorema Central do Limite que dizem que a distribuição de uma certa estatística tende a uma certa distribuição conhecida (como normal ou qui-quadrado) quando o tamanho da amostra tende ao infinito. A segunda é feita pelos testes exatos, que usam a distribuição exata da estatística do teste. Os testes da primeira categoria só funcionam bem quando as amostras são suficientemente grandes e os testes da segunda categoria funcionam também para amostras pequenas.

Um teste exato, como o teste exato de Fisher, pode ser usado tanto para amostras pequenas como para amostras grandes. Ocorre que para amostras grandes, testes que não são exatos como o teste qui-quadrado tem uma performance essencialmente tão boa quanto o teste exato de Fisher. Como o teste exato de Fisher é computacionalmente mais custoso do que o teste qui-quadrado, manuais velhos das épocas em que o tempo de computação era caro recomendavam testes exatos apenas quando eram realmente necessários, i.e., no caso de amostras pequenas. Infelizmente, profissionais das ciências biológicas que não entendem a teoria matemática e só decoram esses manuais podem ficar com a impressão que usar o teste exato de Fisher para amostras grandes é de alguma forma errado.

2 – Ajustes para outras variáveis

Segundo o texto do IQC:

“Além disso, o teste exato de Fisher avalia apenas a associação entre duas variáveis categóricas (por exemplo, tratamento e desfecho), sem permitir ajustes para outras variáveis que possam influenciar os resultados, como idade, comorbidades e sexo. Para realizar uma análise mais adequada dos dados, é necessário incluir essas covariáveis em um modelo estatístico mais sofisticado, como o modelo de Poisson.”

É verdade que o teste exato de Fisher na sua forma usual não permite um ajuste por variáveis de confusão. Ocorre que esse tipo de ajuste não é necessário num estudo randomizado (embora em algumas situações pode ser desejável fazer um ajuste desse tipo mesmo em estudos randomizados, já que ele aumenta o poder dos testes).

3 – Modelo de Poisson

Segundo o texto do IQC:

“A partir do código disponível em https://github.com/jwatowatson/COPCOV/tree/main, fica claro que os autores utilizaram o modelo de Poisson para calcular outra estatística, o risco relativo (RR) do desfecho primário.”

Não olhei o código, mas o uso de um modelo de Poisson não é adequado aqui e segundo a seção de análise estatística do paper do COPCOV um modelo de Poisson de fato não foi usado para cálculo do intervalo de confiança para os riscos relativos, mas sim um modelo log-binomial. O modelo de Poisson (mais precisamente, um zero-inflated Poisson model) foi usado apenas no desfecho terciário de número de dias de trabalho perdidos.

A questão aqui é a seguinte: no desfecho primário, a variável resposta para cada paciente é uma variável do tipo sim/não (foi infectado/não foi infectado), i.e., uma variável que só assume valores 0 e 1. Uma tal variável possui por definição uma distribuição de Bernoulli (equivalentemente, binomial com n=1) e deve ser modelada dessa forma. Podemos usar aí, por exemplo, um modelo logístico que nos permitiria estimar um odds ratio (OR) ou, como os autores usaram, um modelo log-binomial que nos permite estimar um risk ratio (RR). Um modelo de Poisson é adequado em situações em que é razoável modelar a variável resposta usando uma distribuição de Poisson e isso é razoável quando essa variável corresponde a uma contagem de eventos (por exemplo, dias de trabalho perdidos) e pode potencialmente assumir qualquer número natural como valor.

De qualquer forma, o ponto principal que o texto do IQC tenta apresentar nessa seção é que calculando o p-valor para o desfecho primário de forma um pouco diferente podemos obter valores ligeiramente maiores do que 0.05, como 0.06. Embora a escolha do modelo de Poisson seja inadequada, é possivelmente verdade que valores como 0.06 seriam obtidos com alguma outra estratégia adequada de cálculo. Isso não tem realmente qualquer importância, já que o valor de corte 0.05 é arbitrário e um p-valor de 0.04 não é realmente muito mais robusto do que um p-valor de 0.06. No final das contas, o resultado realmente importante vem da metanálise, que tem p < 0.001.

4 – Falta de ajustes

O texto do IQC diz que seria necessário fazer uma correção (por exemplo, uma correção de Bonferroni) para ajustar os p-valores para comparações múltiplas. Mas não se faz correção para comparações múltiplas para o desfecho primário. Esse é todo o ponto de declarar um desfecho como “primário” num protocolo: decretar que é essa a comparação que vai realmente importar, de modo que você não tenha que fazer esse ajuste que destruiria totalmente o poder de qualquer estudo. Observo que entre os desfechos não primários há alguns p-valores que continuariam significativos após um ajuste de Bonferroni.

5 – Riscos desproporcionais

Nessa seção mais técnica, o texto do IQC diz que a proportional hazards assumption do modelo de Cox é violada e portanto esse modelo não deveria ser usado. Essa é de fato uma hipótese do modelo de Cox — a hipótese de que a razão entre as hazard functions é constante (essa razão constante é o hazard ratio, estimado pela regressão de Cox). Os autores do texto do IQC parecem pensar que essa hipótese é necessária para justificar os p-valores que aparecem na Figura 3 do artigo junto das curvas de Kaplan-Meier. Mas, como vemos na legenda da figura, esses p-valores não foram obtidos de uma regressão de Cox, mas sim de um teste log-rank, que não depende dessa hipótese (a validade do teste log-rank depende apenas da distribuição assintótica da estatística do teste sob a hipótese nula e sob a hipótese nula as hazard functions são simplesmente iguais).

6 – Críticas à metanálise

Segundo o texto do IQC:

“Um ponto final, mas não menos importante, é a revisão dos estudos incluídos na meta-análise que os autores fizeram ao final do artigo em questão. Identificamos erros de digitação nos valores de efeito e nos intervalos de confiança reportados. Por exemplo, no estudo de Llanos-Cuentas (2023), onde a meta-análise reportou RR = 1,48 (95% CI 0,38–5,71), o estudo original mostra RR = 1,69 (95% CI 0,41–7,11).”

Não fui conferir se realmente há um erro aí. Pode ser que tenha um erro mesmo, mas também pode bem ser que não tenha erro algum. Ocorre que a extração de dados de artigos para fazer uma metanálise não consiste em meramente copiar as medidas de efeito divulgadas pelos autores dos artigos em suas conclusões — você deve recalcular as medidas de efeito segundo o protocolo adotado pela metanálise, o que pode envolver critérios distintos dos usados pelos autores dos estudos incluídos.

De qualquer forma, isso não importa quase nada. Esse estudo em particular entrou com peso de 0.9% na metanálise. Ocorre que o resultado da metanálise após a inclusão do COPCOV se tornou tão robusto que pequenas diferenças que podem surgir por escolhas diferentes sobre como fazer a metanálise não vão impactar a conclusão.

O texto do IQC também reclama que “os autores incluíram os resultados de seus próprios estudos na meta-análise”. Isso não tem absolutamente nada de errado. Metanálise é um processo impessoal, não faz diferença quem é o autor da metanálise e o critério de inclusão de estudos não pode depender disso. Eu poderia simplesmente refazer eu mesmo essa metanálise e obteria o mesmo resultado (ou um resultado muito parecido, fazendo escolhas ligeiramente diferentes) e eu não sou autor de nenhum estudo, então pela “lógica” deles eu posso incluir todos os estudos.

Por fim, o texto do IQC reclama da “falta de dados abertos na maioria dos estudos incluídos”. Ocorre que isso é sempre assim: dados de estudos clínicos raramente são abertos e isso normalmente não é considerado um problema. Os principais estudos incluídos na metanálise têm autores de boa reputação no mainstream e muitos deles passaram a pandemia toda militando contra a hidroxicloroquina. Se é para tratá-los como suspeitos de algo, não seria de produzir resultados falsos favorecendo a droga.