Parte I: um pouco de contexto para quem está totalmente por fora do assunto.
A proxalutamida é uma droga experimental produzida pela empresa chinesa Kintor Pharmaceuticals. A droga é um antiandrogênico estudado originalmente como tratamento para o câncer de próstata. Estudos clínicos randomizados realizados principalmente por pesquisadores brasileiros (Flavio Cadegiani, Ricardo Zimerman, Carlos Wambier, entre outros) mostraram uma eficácia extraordinária da droga para o tratamento de covid tanto em pacientes ambulatoriais como em pacientes hospitalizados de ambos os sexos. Os resultados dos estudos em pacientes hospitalizados podem ser encontrados aqui: Final Results of a Randomized, Placebo-Controlled, Two-Arm, Parallel Clinical Trial of Proxalutamide for Hospitalized COVID-19 Patients: A Multiregional, Joint Analysis of the Proxa-Rescue AndroCoV Trial
A totalidade dos dados brutos anonimizados do estudo estão disponíveis juntamente com a publicação, um nível de transparência que não é comum em publicações médicas [1]. A proxalutamida já demonstrou também resultados positivos em pacientes ambulatoriais de covid, compatíveis com uma eficácia bastante elevada, num estudo clínico randomizado multi-regional realizado em diversos centros nos Estados Unidos patrocinado pela Kintor [2]: Kintor Pharma’s Proxalutamide Demonstrated Reduction in Hospitalization/Mortality for Patients with Mild to Moderate COVID-19 in Phase III MRCT Study
De modo que a essa altura não precisamos mais confiar apenas em resultados produzidos pelos pesquisadores brasileiros que iniciaram o estudo da droga para covid. Cabe observar também que uma outra droga, o Sabizabulin, que possui certas similaridades com a proxalutamida (bloqueia o transporte de receptores de androgênio para o núcleo da célula e também foi estudada para tratamento de câncer de próstata) demonstrou uma eficácia grande em pacientes hospitalizados com covid: Oral Sabizabulin for High-Risk, Hospitalized Adults with Covid-19: Interim Analysis
Os pesquisadores brasileiros que estudam a proxalutamida tem sido sistematicamente difamados por parte da imprensa brasileira (especialmente O Globo, que já perdeu processos na justiça por causa disso) com ajuda de alguns “divulgadores científicos” brasileiros e seus amigos estrangeiros – que por razões não completamente claras se comportam dessa forma bizarra.
Parte II: os bastidores da retratação do paper na Frontiers in Medicine
Esse é o paper: Proxalutamide Reduces the Rate of Hospitalization for COVID-19 Male Outpatients: A Randomized Double-Blinded Placebo-Controlled Trial.
Eu estive incluído na troca de e-mails entre autores e editores da revista, de modo que sei exatamente o que se passou: a principal justificativa para a retratação foi um parecer produzido por um “expert advisor” anônimo (disponibilizado na íntegra abaixo [7]). Eu tive acesso aos mesmos dados que o “expert advisor”. Ele baseou suas conclusões num teste estatístico que explico a seguir; explico também porque o uso do teste da maneira que foi feita é completamente sem pé nem cabeça.
Num estudo clínico randomizado, à medida em que os pacientes são incluídos, eles são distribuídos para o grupo tratado e para o grupo controle por algum processo aleatório – por exemplo, podemos simplesmente jogar uma moeda para cada paciente incluído e colocá-lo no grupo controle se o resultado for “cara” e no grupo tratado se o resultado for “coroa” [3]. A chamada sequência de alocação indica os grupos para os quais os pacientes são alocados na ordem em que são incluídos. Por exemplo, uma sequência de alocação pode ser assim:
AAABBBABABBBBAABBBAB
Indicando que os três primeiros pacientes foram para o grupo A (digamos, controle), os três seguintes foram para o grupo B (digamos, tratado), o seguinte foi para o grupo A e assim por diante. O chamado runs test é um teste estatístico que se aplica a uma sequência de A’s e B’s que serve para testar se a sequência foi produzida por lançamentos de uma moeda [4]. O teste é baseado no número das chamadas runs: sequências consecutivas (maximais) de letras idênticas. Por exemplo, na sequência de A’s e B’s acima temos as seguintes 10 runs:
AAA, BBB, A, B, A, BBBB, AA, BBB, A, B.
Se a sequência foi produzida por lançamentos de uma moeda, o número de runs segue uma distribuição conhecida [5] e baseado nisso podemos calcular um p-valor. Dito de forma simplificada, se o número de runs for muito menor ou muito maior do que “deveria” ser, esse p-valor será muito baixo e concluiremos que a sequência (quase certamente) não foi produzida por lançamentos de uma moeda. O “expert advisor” diz ter aplicado o runs test na sequência de alocação obtendo um p-valor extremamente baixo e concluiu que o estudo não foi adequadamente randomizado.
Um primeiro problema com o uso do runs test aqui é que ele não pode ser aplicado no caso de uma randomização em blocos; esse não é o principal problema, mas não deixa de ser relevante [6]. O principal problema é o seguinte: a sequência de A’s e B’s sobre a qual o “expert advisor” aplicou o runs test não é a sequência de alocação, mas sim uma sequência que estava ordenada por data de inclusão de pacientes e depois por grupo. Em outras palavras, dentro de cada dia, todos os A’s apareciam antes de todos os B’s. Assim, por exemplo, se num certo dia foram incluídos 12 pacientes, em vez de termos uma sequência do tipo:
ABBBABABBABB
com 8 runs, teremos a sequência:
AAAABBBBBBBB
com apenas dois runs. Como é evidente, se você ordena os pacientes por grupo dentro de cada data, forçando os A’s a ficarem na frente dos B’s, o número de runs vai ficar muito abaixo do que “deveria” ser numa sequência de lançamentos de moeda e o runs test vai produzir um p-valor extremamente baixo. Isso não é indicativo de qualquer problema com a randomização, é apenas uma consequência óbvia do jeito que a planilha foi ordenada.
E é isso, a decisão da revista foi baseada nessa coisa burra. Não sei dizer se os editores são assim burros mesmo e não conseguiram entender algo assim tão simples ou se tinham algum outro motivo para querer retratar – suspeito que a campanha de difamação contra os autores que começou aqui reverberou lá fora e gerou uma espécie de histeria coletiva em torno do assunto que culminou com isso. A droga funciona e isso já está claro aproximadamente desde abril de 2021 – teria salvo um número enorme de vidas durante a onda da variante gama.
–
Notas de rodapé:
[1] É muito comum, na verdade, que não só os dados brutos anonimizados de estudos clínicos não sejam disponibilizados publicamente como também não sejam nem sequer disponibilizados sob demanda de outros pesquisadores interessados em reanálises, um problema sério discutido aqui no British Medical Journal: Covid-19 vaccines and treatments: we must have raw data, now
[2] Infelizmente o estudo foi um tanto mal-desenhado, incluindo muitos pacientes de baixo risco, de modo que o número total de hospitalizações no grupo controle foi pequeno e uma estimativa razoavelmente precisa de eficácia não é possível. Dessa forma, os resultados não parecem tão impressionantes, já que não há significância estatística na análise intention to treat (que inclui todos os pacientes randomizados, independentemente de aderência ao tratamento), mas apenas na análise per protocol (que inclui apenas os que completam o tratamento). No entanto, juntando os resultados da análise per protocol para o desfecho primário com os resultados positivos e estatisticamente significativos para desfechos secundários fica evidente que a droga funciona, embora não seja claro se a eficácia é tão alta.
[3] Na prática é comum a utilização de softwares para randomização. Há também outros possíveis esquemas de randomização, como a randomização em blocos, que pode ser usada para garantir por exemplo um mesmo número de pacientes em cada grupo: digamos, numa randomização 1:1 em blocos de 10, a cada 10 pacientes incluídos sorteamos de forma equiprovável um subconjunto de 5 para entrar no grupo tratado, sendo que os outros 5 entram no grupo controle.
[4] A moeda não precisa ser honesta, i.e., a probabilidade de A e de B não precisa ser a mesma. No jargão da estatística, diz-se que estamos testando a hipótese nula de que temos uma sequência independente identicamente distribuída de Bernoulli trials.
[5] Mais precisamente, a distribuição do número de runs condicionada no número de A’s e B’s é conhecida, já que uma vez que condicionamos no número de A’s e B’s todas as sequências de A’s e B’s possíveis se tornam equiprováveis sob a hipótese nula. É possível realizar o teste usando tanto a distribuição (condicional) exata do número de runs como uma aproximação normal válida para sequências grandes.
[6] Numa randomização em blocos a hipótese de independência não é satisfeita: dentro de cada bloco, tudo se passa como numa retirada sem reposição de bolas de uma urna de bolas brancas e pretas. Se a primeira bola é branca, como a retirada é sem reposição, a probabilidade de que a segunda bola seja também branca é menor. Não é difícil verificar com uma simulação no R que no contexto relevante para o estudo em questão a distribuição do p-valor produzido pelo runs test é substancialmente distorcida em relação ao que deveria ser.
[7] Esse é o parecer do “expert advisor”: “The authors of the proxalutamide study assert that their trial was randomized and double-blind. The validity of inferences from a randomized trial depends crucially on the fidelity of the randomization. The description of the process of randomization in the paper made me suspect a nonrandom process governed the allocation to treatment and control, but the authors, in a series of emails to the journal, have defended their method of randomization. Their defense is weak; they fail to describe how they produced the sequence of random numbers and they speak of “shuffling”, which does not sound like a random process. It is, however, hard to be certain from their description that the process was not random.
Fortunately, they did provide a list of allocations to group A or B in order of assignment. If one looks at the list, the long strings of As and Bs strongly suggest a nonrandom process governing assignments. (Think of tossing a coin and recording the pattern of Hs and Ts over time; one would not expect so many such strings in a fair coin.) To test whether the process was random, I applied the Wald-Wolfowitz test for what are called runs – consecutive sequences of the same outcome in an experiment that allocates items to two different groups. Published in 1940, this test calculates the number of observed runs and compares it to the number expected given the observed number of As and Bs. Note that the test does not require equal number of As and Bs; in this case, because the randomization was 1:1, the expected numbers are the same.
With the 128 As and 134 Bs in the trial, one would have expected 132 runs; the study had only 75. The runs test for randomness gives a p-value of 2×10-12. In other words, if the process were truly random, the probability of such infrequent switching from A to B, or B to A, would have been extremely unlikely. To put this tiny probability in context, the probability of being hit my lightening in a given year is about 1/500,000. Or, the probability of being dealt a royal flush in 5-card poker is 1.5×10-4. Both of these probabilities are much larger than the probability of having so few runs.
In summary, the results show overwhelming evidence that the process of allocation to treatment and control was nonrandom. Therefore, the conclusions drawn from study cannot be defended. I strongly recommend retracting the paper.”