Qual desses dois medicamentos você prefere tomar? Assuma que preço, disponibilidade e efeitos adversos são os mesmos. Os estudos clínicos randomizados que produziram os resultados abaixo tem desenhos similares e foram conduzidos por equipes de mesma credibilidade. Não há outros estudos disponíveis sobre eles.
Medicamento A: estimativa pontual de eficácia 70%, intervalo de confiança de 95% vai de -6% a 91.5%. p-valor = 0.062.
Medicamento B: estimativa pontual de eficácia 3%, intervalo de confiança de 95% vai de 1% a 5%. p-valor = 0.0034.
Pense na sua resposta antes de continuar a leitura.
Discussão
Agora que você já escolheu a sua resposta para a pergunta do “medicamento A” versus “medicamento B”, vamos discutir a questão em mais detalhes.
Antes de mais nada, esclareço que eu não estava pensando em nenhum medicamento de verdade e que os números foram inventados. No entanto, eles foram inventados de forma coerente, quer dizer, para cada medicamento havia consistência entre a estimativa pontual de eficácia, as extremidades do intervalo de confiança de 95% e o p-valor. Explico a matemática no fim, para quem quiser saber.
A pergunta não tem uma “resposta correta” do mesmo jeito que um problema de matemática pura tem uma resposta correta. Se os números fossem diferentes, a coisa poderia ficar meio cinza e diferentes métodos formais de tratar a questão poderiam gerar respostas diferentes. Mas no caso eu coloquei números bem exagerados para que não haja dúvidas: é melhor tomar o medicamento A. Quem escolheu o medicamento B está reproduzindo algo que aprendeu em cursos básicos ruins de estatística em que martelam a regra do “p-valor < 0.05” como critério decisório. Isso é um problema sério e não sou só eu que estou preocupado com isso. Veja, por exemplo, o statement da American Statistical Association sobre o assunto.
Muita gente que pratica Ciência têm a regrinha do p < 0.05 na cabeça e isso causa muito estrago. Estrago do tipo que mata gente. Tanto porque intervenções eficazes são descartadas porque p > 0.05 quanto porque hábitos que causam malefício são erroneamente classificados como “sem efeito” porque p > 0.05.
Vamos ao nosso caso concreto. Para o medicamento B temos uma estimativa bem precisa do valor da eficácia. A estimativa pontual é de 3% e o intervalo de confiança de 95% vai de 1% a 5%. O p-valor pequenino 0.0034 nos permite afirmar com muita confiança que a eficácia é maior do que zero. Apenas cerca de 1 a cada 294 estudos com drogas sem qualquer eficácia produziriam um resultado como esse (“como esse”, quer dizer, com p-valor <= 0.0034; o número 294 é aproximadamente 1/0.0034). No entanto, essa estimativa muito precisa do valor da eficácia nos diz também que essa eficácia é muito baixa, clinicamente insignificante. Pode ser que a eficácia seja maior do que 5%, mas dificilmente será muito maior do que isso. Mesmo a extremidade superior de um intervalo de confiança de 99% seria de apenas 5.6% e a extremidade superior de um intervalo de confiança de 99.9% seria de apenas 6.3%. A droga muito provavelmente ajuda um pouquinho, mas esse pouquinho é bem pouquinho mesmo.
E o medicamento A? A estimativa pontual de eficácia é de 70%, com intervalo de confiança de 95% indo de -6% a 91.5% e p-valor = 0.062. Muita incerteza sobre a magnitude da eficácia, mas é bem plausível que o medicamento tenha um efeito benéfico enorme. Algumas pessoas veem o p-valor > 0.05 e concluem que há “ausência de evidência de eficácia” ou até “evidência de ineficácia”. Ambas as coisas estão erradas. Em primeiro lugar, tanto o valor de corte 0.05 para p-valores quanto o seu companheiro 95% usado para construção dos intervalos de confiança são escolhas completamente arbitrárias, não há nada de realmente importante sobre esses números. São hábitos adotados por algumas comunidades.
Adotar um certo valor de corte (como 0.05) para o p-valor para se rejeitar a hipótese nula faz com que tenhamos uma probabilidade igual a esse valor de corte de rejeitar a hipótese nula por engano. É útil imaginar um personagem fictício que toma essa decisão binária de rejeitar ou não a hipótese nula com base no p-valor para se ensinar a teoria geral abstrata de testes de hipótese, mas essa exposição não deve ser confundida com uma recomendação de que um pesquisador de fato se comporte no mundo real como esse personagem. Um p-valor deve ser entendido como uma medida de compatibilidade entre uma hipótese nula e um certo conjunto de dados observados; quanto mais baixo o p-valor, mais incompatibilidade. O p-valor de 0.0034 obtido no estudo do medicamento B expressa muita incompatibilidade entre a hipótese de que o medicamento B não tem efeito e os dados observados no estudo. Já o p-valor de 0.062 obtido no estudo do medicamento A expressa alguma, mas não tanta, incompatibilidade entre a hipótese de que o medicamento A não tem efeito e os dados observados no estudo.
A teoria de testes de hipótese ensinada em cursos introdutórios de estatística coloca muita ênfase na questão “eficácia nula” versus “eficácia não nula”, mas no mundo real obviamente o tamanho da eficácia importa, não apenas saber se ela é não nula. Eficácia não nula, mas muito pequenininha, é como se fosse nula para efeitos práticos. O tamanho da eficácia não é visível olhando o p-valor; para saber algo sobre ele devemos olhar para uma estimativa pontual de eficácia e para um intervalo de confiança. Para entender corretamente o significado da estimativa pontual de eficácia e do intervalo de confiança, deve-se ter em mente alguns fatos. Os valores de eficácia que estão dentro do intervalo de confiança são todos razoavelmente compatíveis com os dados do estudo, mas não são todos igualmente compatíveis. Valores mais próximos da estimativa pontual são mais compatíveis com os dados do que valores mais próximos das extremidades. Valores fora do intervalo também são compatíveis com os dados, mas menos do que os que estão dentro. Valores que ficaram só um pouqinho para fora do intervalo são apenas um pouquinho menos compatíveis com os dados do que valores que estão do lado de dentro, mas perto das extremidades.
O intervalo de confiança de 95% é um intervalo que é construído por um método que garante que 95% das vezes que a gente realizar um estudo e usar esse método, vamos obter um intervalo que contém o valor real desconhecido da eficácia. Como já mencionamos, não há nada de especial sobre o valor 95%, o uso desse valor é só um hábito. Podemos construir intervalos de confiança de 87%, de 93% ou de 99%, por exemplo. No caso do medicamento A, se tivéssemos optado por construir um intervalo de confiança de 93% em vez de 95%, teríamos obtido [3.6%,90.7%]. Nesse caso a extremidade inferior 3.6% já seria maior do que a estimativa pontual de eficácia do medicamento B em vez de ser negativa.
Alguns comentários para finalizar:
(1) um hábito particularmente terrível que alguns pesquisadores têm é o de reportar um p-valor > 0.05 como “não funcionou”, mas se o p-valor for menor do que 0.05 reportar apenas a estimativa pontual de eficácia como se fosse a eficácia verdadeira. Vimos isso rotineiramente na imprensa durante a pandemia: p-valor maior do que 0.05 gera a manchete “estudo mostra que não há eficácia” e p-valor menor do que 0.05 gera uma manchete com um valor de eficácia que foi a estimativa pontual. Aí você não só está cometendo o erro de confundir p-valor maior do que 0.05 com evidência de ausência de eficácia ou ausência de qualquer evidência de eficácia, mas também está sobrevalorizando o significado da estimativa pontual quando p < 0.05. Se você não está convencido de que uma droga funciona quando o p-valor fica um pouco acima de 0.05, então você está levando a sério a extremidade inferior do intervalo de confiança para a eficácia como uma possibilidade. Nesse caso, você também tem que levar essa extremidade inferior a sério quando p < 0.05. Se p = 0.04, a extremidade inferior do intervalo de confiança de 95% vai ser positiva, mas vai ser tipicamente pequenininha. Para ser coerente, você deveria dizer aí que “funciona, mas talvez tenha uma eficácia muito pequenininha”, em vez de simplesmente reportar a estimativa pontual como se fosse correta. No caso do nosso medicamento A, se o estudo tivesse encontrado uma estimativa pontual de eficácia de 70% com um p-valor de 0.045 (em vez de 0.062), a extremidade inferior do intervalo de confiança de 95% seria positiva, mas seria de reles 2.6%. Uma eficácia de 2.6% não é realmente muito diferente de “não funciona”.
(2) Eu não coloquei no post original a opção de não tomar nenhum dos medicamentos ou a opção de tomar os dois. Ambas as coisas podem fazer sentido, mas não há informação suficiente no post para se tomar essa decisão. Se a doença é leve e esses medicamentos são caros e têm muito efeito colateral, eu não tomaria nenhum dos dois. Se a doença é potencialmente séria, os medicamentos são baratos, têm pouco efeito colateral, os mecanismos de ação teorizados são potencialmente complementares e não há risco de interação medicamentosa, eu tomaria os dois.
(3) Mas não pode ser que o medicamento A na verdade tenha uma eficácia negativa, isto é, mais atrapalhe do que ajude? Essa possibilidade é razoavelmente compatível com os dados. No intervalo de confiança de 95% a extremidade inferior é -6%, o que é um pouco prejudicial. Já no intervalo de confiança de 94% a extremidade inferior é -0.7%, o que é tecnicamente um pouco prejudicial, mas na prática irrelevante. Há um problema aqui que a estatística é cega sobre o assunto que estamos falando, ela não sabe se estamos falando de eficácia de medicamentos ou sobre sorteios de bolinhas coloridas de urnas. Se a gente fizer um estudo clínico randomizado em que o grupo tratado tem que tomar um copo de água a mais por dia, vamos provavelmente obter um intervalo de confiança com uma extremidade inferior negativa. Afinal, esse copo de água a mais não deve fazer diferença, de modo que a eficácia real é zero e o intervalo de confiança vai então tipicamente avançar para o lado negativo. Isso não quer dizer, no entanto, que temos motivos para imaginar que o copo de água esteja fazendo mal. Apesar de uma droga não ser como um copo de água e poder de fato prejudicar o paciente, muitas vezes temos informações sobre isso que vão além do que vemos no intervalo de confiança. Se uma droga chegou nessa fase de teste clínico em humanos é porque provavelmente já sabemos algo sobre as ações dela no organismo. Podemos também tirar informações sobre possíveis malefícios monitorando eventos adversos no estudo.
(4) P-valores e intervalos de confiança são quase sempre calculados usando métodos aproximados. Isso quer dizer que não é realmente verdade que há uma probabilidade de 5% de obtermos um p-valor <= 0.05 sob a hipótese nula e que não é verdade que o intervalo de confiança de 95% contém o valor real da eficácia 95% do tempo. Essas coisas valem só aproximadamente, dentro de certas hipóteses. Mesmo os chamados “testes exatos” (como o teste exato de Fisher) são na verdade conservadores. Além do mais, frequentemente há muitos métodos para calcular p-valor e intervalo de confiança. Esses métodos produzem valores diferentes e não é o caso que existe O MÉTODO CORRETO. A questão de se o p-valor vai ficar um pouco abaixo ou um pouco acima de um valor de corte escolhido vai depender do método usado. Normalmente o método que será usado deve ser pré-registrado num protocolo antes que o pesquisador tenha acesso aos dados. Isso tem a vantagem de evitar que o pesquisador possa ficar procurando o método mais favorável à conclusão desejada depois que viu os dados, mas não elimina o problema de que o resultado de fato depende do método escolhido.
(5) Seria mais fácil de pensar sobre essa questão da escolha entre medicamento A e B se pudéssemos falar em probabilidade da eficácia de A ser maior do que a eficácia de B, ou algo do gênero. Mas esse tipo de coisa faz parte da estatística Bayesiana e as informações dadas no enunciado foram dadas usando conceitos frequentistas. Com os dados completos dos estudos em mãos, poderíamos fazer uma análise Bayesiana em vez de frequentista. A desvantagem é que isso vai depender da escolha de priors para as quantidades desconhecidas e pode não ser bem claro como fazer essas escolhas. Daria até para aproveitar as estimativas pontuais e intervalos de confiança dados para improvisar uma análise Bayesiana, mas não fica tão bom quanto fazer a análise Bayesiana completa a partir dos dados originais.
Detalhes matemáticos sobre os cálculos dos intervalos de confiança e p-valores usados
Esta seção é só para quem tem algum conhecimento de teoria de probabilidade.
Quando o desfecho considerado no estudo de uma droga é binário (morreu/não morreu, hospitalizou/não hospitalizou, etc), a eficácia é normalmente definida como 1 menos um risco relativo (ou um odds ratio, ou hazard ratio, ou intensity rate ratio, dependendo do caso). Os intervalos de confiança são então calculados usando uma aproximação normal do logaritmo do estimador do risco relativo (ou do odds ratio, etc). Por exemplo, se k1 é o número de eventos no grupo tratado com amostra n1 e k2 é o número de eventos no grupo controle com amostra n2, pensamos que k1 e k2 são sorteados de forma independente de Binom(n1;p1) e Binom(n2;p2). O risco relativo é p1/p2 e usamos (k1/n1)/(k2/n2) como estimador desse risco relativo. Para se obter um intervalo de confiança, assumimos uma aproximação normal de log(k1/n1) e log(k2/n2), com médias log(p1) e log(p2), respectivamente. Os desvios padrões desses estimadores são aproximados usando o delta method.
Neste texto eu considerei intervalos de confiança de 95% que são simétricos quando expressos em termos de log de risco relativo (ou odds ratio, etc). A partir do raio desse intervalo de confiança eu obtenho o desvio padrão do estimador e o p-valor (bicaudal) usando a aproximação normal.