Como eu já discuti em algumas postagens anteriores (veja também aqui e aqui para uma discussão mais técnica), há uma diferença grande entre “ter evidências muito fortes de que X é verdade” e “as melhores evidências disponíveis no momento implicam que a melhor decisão a ser tomada agora é aquela que tomaríamos se soubéssemos que X é verdade”.
Isso deveria ser óbvio e todo mundo usa esse tipo de heurística intuitivamente no dia a dia. Frequentemente não conhecemos a verdade nem temos muita certeza sobre o que é verdade, mas nos comportamos como se algo fosse verdade — baseando-nos em alguma evidência imperfeita — fazendo algum cálculo de risco/benefício intuitivo do tipo “se não for verdade e eu assumir que é, as consequências não são tão ruins” ou também “se for verdade e eu assumir que não é, as consequências serão muito ruins”. É razoável ir dar uma volta no parque sem carregar o guarda-chuva se não parece que vai chover (é chato carregar o guarda-chuva) — e se eu estiver errado, não é tão ruim se molhar um pouco. Mas não é razoável praticar um esporte perigoso sem o equipamento de segurança adequado. Etc. Todo mundo faz isso o tempo todo: não sei ao certo o que é verdade e o que vai acontecer, mas tenho algumas informações parciais e avalio as possíveis consequências de agir de um jeito ou de outro em cada caso, levando em conta as incertezas e as informações disponíveis sobre o que é verdade e o que vai acontecer.
Infelizmente o óbvio é frequentemente ignorado num tema muito importante: a medicina. Enquanto há muitos bons médicos que raciocinam intuitivamente de forma correta e escolhem como tratar seus pacientes com base na melhor evidência disponível, levando em conta riscos e benefícios, o que ficou claro durante a pandemia é que há também muitos médicos que frequentemente se apresentam como “defensores da Ciência” ou “especialistas em medicina baseada em evidências”, que papagueiam regrinhas decoradas baseadas numa estatística de quarta série que não entendem direito, que não tem intuição e não vêem o óbvio. É o famoso problema dos midwits: as pessoas que são um pouquinho educadas, pouco o suficiente para rejeitar o “senso comum” dos “ignorantes”, mas não educadas o suficiente para reconhecer quando o tal “senso comum” estava na verdade correto.
O problema é que agências reguladoras e “checadores de fatos” para a mídia tradicional tendem a simpatizar mais com a medicina burra dos midwits — a medicina em que as pessoas sofrem ou morrem à toa porque naquele momento a evidência disponível a favor de um tratamento não é da mais alta qualidade. Note que a ideia de que a barra de evidência para se usar um tratamento deve ser colocada lá em cima é bem conveniente para as grandes indústrias farmacêuticas.
Ocorre que produzir evidência da mais alta qualidade é extremamente caro (Estimated Costs of Pivotal Trials for Novel Therapeutic Agents Approved by the US Food and Drug Administration, 2015-2016 ) de forma que a exigência de altos níveis de evidência acaba por eliminar a concorrência indesejável (empresas menores e drogas reposicionadas sem patente). A indústria tem muita influência na cultura médica, de modo que a popularidade da “medicina midwit” talvez não seja só causada por incompetência. Não estou dizendo que aquele influenciador em particular que nunca acha que há evidência suficiente para recomendar um tratamento esteja recebendo dinheiro da indústria, mas ele pode estar sendo influenciado indiretamente, repetindo o que os outros dizem. E muitos têm realmente conflitos de interesse — não recebem suborno propriamente dito, mas gostam de ter seus congressos patrocinados e de participar como investigador principal em estudo da indústria, por exemplo.
O pior de tudo é que a “medicina midwit” muitas vezes é vendida como uma medicina “mais rigorosa”, “mais científica”. É a confusão da qual eu tratei no início do post. A barra de evidência para se dizer que X deve passar a fazer parte da Ciência estabelecida (o “cientificamente comprovado”, na falta de um termo melhor — embora nada seja nunca literalmente comprovado) deve de fato ser bem alta. Porém a barra de evidência para se dizer que a melhor decisão a ser tomada agora é aquela em que se faz de conta que X é verdade é frequentemente bem mais baixa. Curiosamente, o famoso p-value < 0.05 usado pelas pessoas que decoraram regrinhas de estatística da quarta série não se presta bem a nenhum dos dois propósitos: p-value < 0.05 é uma evidência fraca demais para fins de declarar algo “Ciência estabelecida” e é muitas vezes uma exigência desnecessariamente forte para fins de justificar que é melhor agir agora como se soubéssemos que algo é verdade.
No contexto da estatística bayesiana, há um framework formal interessante para se tomar decisões racionalmente (vide, por exemplo, Foundations of Statistics) que é a ideia de se optar pela decisão que maximiza o valor esperado da função utilidade. A função utilidade é uma função que quantifica um grau de desejabilidade de certas consequências possíveis das nossas ações. Como as consequências das nossas ações dependem de fatos que nos são desconhecidos, não podemos simplesmente escolher a ação que maximiza a utilidade. Em vez disso, tratamos as coisas desconhecidas como objetos aleatórios (usando probabilidades epistêmicas), de modo que a função utilidade vira uma variável aleatória e aí maximizamos o valor esperado (média) dessa variável aleatória. Para atribuir probabilidades às coisas desconhecidas, partimos de alguma distribuição à priori e atualizamos ela (bayesian updating) via condicionamento aos novos fatos observados (resultados de estudos, por exemplo).
Embora a teoria seja bonita, é mais fácil falar do que fazer o que descrevi no parágrafo acima: frequentemente não é claro como definir a função utilidade, nem como escolher as probabilidades a priori nem que modelo devemos usar para fazer o updating. Há também outras fontes de incerteza (será que o estudo é uma fraude?) que são difíceis de quantificar. Mesmo que não se pretenda utilizar na prática essa teoria, entendê-la não deixa de ser esclarecedor sobre como deveria funcionar um processo de decisão racional. Por exemplo, usando a linguagem da maximização do valor esperado da utilidade, posso explicar a distinção discutida no início do post da seguinte maneira: se o objetivo é declarar que algo faz parte da Ciência estabelecida, devemos maximizar o valor esperado de uma função utilidade que atribui um valor muito negativo ao cenário em que declaramos que algo falso é parte da Ciência estabelecida; já se queremos, por exemplo, decidir como tratar um paciente, devemos maximizar uma função utilidade que leva em conta o bem-estar do paciente (se ele vai ter sintomas severos, se vai morrer, se vai experienciar eventos adversos, se vai ter que gastar muito dinheiro com o tratamento, etc).
Mas por que não iniciar uma tradição de adotar um critério de maximização de valor esperado de utilidade para recomendar tratamentos? Pode não ser exatamente claro como fazer todas as escolhas necessárias (função utilidade e priors), mas o resultado não vai ficar pior que a “medicina midwit”. Resolvi então fazer um exemplo concreto ilustrativo, considerando uma droga fictícia e um estudo clínico randomizado controlado fictício com resultado simulado. Não acho que vale a pena fazer esse tipo de análise no momento com drogas polêmicas porque tem muitas escolhas para fazer que não são fáceis de justificar e num contexto de polêmica/politização o debate sobre essas escolhas não vai ser produtivo.
Observo que não é mais tão raro encontrar papers com estudos clínicos cujos resultados são analisados de forma bayesiana, mas isso de um modo geral parece estar sendo feito de uma forma burra em que você só pega as desvantagens da estatística bayesiana e nenhuma das vantagens. O que se faz é apenas calcular intervalos de credibilidade bayesianos em vez de intervalos de confiança frequentistas e coloca-se algum valor arbitrário de corte para a probabilidade a posteriori de superioridade para se tomar uma decisão binária do tipo “funciona” ou “não funciona”, como se fosse um teste de hipótese frequentista com critério de rejeição de hipótese nula p-value <= 0.05. Também não parece haver um esforço muito sério de se usar priors realistas, usa-se muitas vezes priors flat que tendem a dar resultados aproximadamente similares aos frequentistas. E, o pior de tudo, ignora-se a teoria de decisão bayesiana baseada em maximização de valor esperado de utilidade.
Vamos então aos detalhes da ilustração que eu fiz. Disponibilizei o código R (comentado) e a respectiva saída (aqui: link). Para rodar você também precisa do software Stan que é chamado de dentro do código R para obter por Markov Chain Monte Carlo uma amostra da distribuição a posteriori dos parâmetros.
Como isso é só uma ilustração da ideia e não uma situação em que eu quero tomar de verdade uma decisão, eu fiz algumas hipóteses simplificadoras. O estudo simulado vai considerar apenas três tipos de evento: morte, eventos adversos leves e eventos adversos graves. Eu fiz de conta que esses eventos são todos independentes (tanto os eventos em si são independentes condicionalmente aos parâmetros como as distribuições a priori dos parâmetros correspondentes são independentes). Essa hipótese não é muito realista, mas simplifica muito, pois para colocar alguma dependência eu preciso de mais parâmetros e mais escolhas para as priors.
Para cada tipo de evento, eu tenho uma probabilidade pcontr de ocorrência desse evento no grupo controle e uma probabilidade ptreat de ocorrência desse evento no grupo tratado (o número de eventos no estudo é então sorteado de uma distribuição binomial com esses parâmetros de probabilidade). Como distribuição a priori para pcontr eu uso uma distribuição beta (que é uma conjugate prior para a binomial) e para a distribuição a priori do log do odds ratio OR=(ptreat/(1-ptreat))/(pcontr/(1-pcontr)) eu uso uma distribuição normal de média zero independente da distribuição usada para pcontr. A eficácia do tratamento pode ser definida como 1-OR. Eu prefiro usar aqui odds (em vez da probabilidade em si) porque log(odds) é um número real qualquer e é razoável usar aí uma distribuição normal (log(OR) é também o parãmetro natural que se estima em regressões logísticas).
Para gerar os dados simulados do estudo, eu escolhi os seguintes valores para os parâmetros (que são desconhecidos dos pesquisadores fictícios que estão fazendo o estudo):
- probabilidade de morte no controle: 1/100
- odds ratio para morte: 0.8 (corresponde a uma eficácia de 20% do tratamento para reduzir mortalidade)
- probabilidade de evento adverso leve no controle: 5/100
- probabilidade de evento adverso leve no tratado: 15/100 (a droga triplica a incidência de eventos adversos leves)
- probabilidade de evento adverso grave no controle: 1/1000
- probabilidade de evento adverso grave no tratado: 2/1000 (eventos adversos graves são razoavelmente raros, mas a droga duplica a incidência)
Quantos pacientes vai ter no estudo? Os pesquisadores fictícios — que pretendem fazer uma análise frequentista tradicional no desfecho primário morte — vão fazer um cálculo de tamanho de amostra para ter um poder de 80% para detectar um efeito (usando o nível de significância usual de 0.05). Para isso, eles precisam de um palpite sobre a probabilidade de morte no controle e de um palpite sobre a eficácia da droga. A probabilidade de morte no controle de 1% eles sabem — faz parte da literatura padrão sobre a doença — mas o palpite sobre a eficácia foi otimista, eles acharam que seria de 40% (OR = 0.6) em vez de 20% (OR = 0.8 ). O tamanho de amostra calculado ficou então de 7770 pacientes por grupo! Como eles superestimaram a eficácia esperada da droga, o estudo ficou underpowered: o poder real é de apenas 25.9% em vez de 80%. Quer dizer, há apenas uma probabilidade de 25.9% de obtermos um resultado estatísticamente significativo (p-value <= 0.05), embora a droga tenha de fato 20% de eficácia para reduzir a mortalidade. Estudos com baixo poder não são raros, na pandemia aconteceu muito. Surpreendentemente, isso não acontecia apenas por superestimarem a eficácia das drogas, mas por superestimarem a incidência de eventos no grupo controle. Isso não deveria acontecer se os pesquisadores fossem razoavelmente competentes.
Ao final do estudo (nessa simulação), tivemos 76 mortes entre 7770 pacientes no controle e 60 mortes entre 7770 pacientes no tratado e fazendo a análise frequentista com o teste exato de Fisher isso nos dá uma estimativa pontual de OR de 0.79 com um intervalo de confiança de 95% indo de 0.55 a 1.12. O p-valor é 0.196. A estimativa pontual obtida ficou bem perto do valor verdadeiro do OR que é 0.8, mas os pesquisadores obviamente não sabem disso, para eles há uma incerteza grande. Se eles forem incompetentes, como muitos são, vão escrever na conclusão algo como “a droga não reduziu a mortalidade” e vai sair uma notícia no jornal de que a droga não funciona. Para piorar, tivemos 384 eventos adversos leves no controle e 1225 eventos adversos leves no tratado (OR = 3.60, IC=[3.19,4.07], p-value < 0.0001). Tivemos também 7 eventos adversos graves no controle e 16 no tratado (OR = 2.29, IC=[0.89,6.58], p-value = 0.093).
Com esse resultado, a droga não vai ser indicada para essa doença! Não mostrou eficácia para reduzir mortalidade e ainda mostrou que aumenta eventos adversos leves. Ainda vai ter gente burra dizendo que o estudo “mostrou/evidenciou ineficácia” ou que não faz mais sentido estudar a droga porque “a maioria das coisas que a gente tenta não funciona, então se não foi comprovada eficácia, provavelmente não funciona”. “Se não há eficácia comprovada, só ficamos com os efeitos adversos, que são garantidos” é o tipo de opinião que se ouviria por aí de supostos “especialistas em medicina baseada em evidências”.
Vamos então seguir em frente com a análise bayesiana. Para isso precisaremos fazer escolhas. Primeiro as priors (que permitem uma análise bayesiana básica) e depois as utilidades. Como isso é meramente um exemplo ilustrativo, eu simplesmente inventei uns números que pareciam razoáveis e interessantes para a ilustração.
Numa situação mais séria, as priors seriam obtidas considerando dados históricos sobre outras drogas/doenças similares ou opiniões de especialistas (os de verdade) em drogas/doenças similares e mecanismos de ação. Poderia também se conduzir análises de sensibilidade para ver o quanto os resultados obtidos dependem das escolhas feitas.
Como priors para os parâmetros pcontr de probabilidade de evento no controle eu usei betas cujos parâmetros foram calculados a partir da média e do desvio padrão. Para as médias eu usei os verdadeiros valores das probabilidades e para os desvios padrão eu usei 1/5 do valor da média. A minha ideia aqui é que como esses parâmetros dependem só da doença (e da população do estudo) e não da droga, os pesquisadores teriam muita informação sobre eles. Dessa forma, eles essencialmente acertariam a média e usariam um desvio padrão (incerteza) pequena em relação ao tamanho da média. Eu preciso também de priors para o efeito da droga. Como mencionado anteriormente, eu usei distribuições normais de média zero para o log(OR), mas eu preciso também dos desvios padrão para definir a prior. Um desvio padrão pequeno aqui nos daria uma prior pessimista — a droga provavelmente faz quase nada. Já um desvio padrão grande tenderia a produzir resultados parecidos com uma análise frequentista. No caso da eficácia para a mortalidade, eu escolhi um desvio padrão de modo que OR=0.6 (o OR usado pelos pesquisadores para o cálculo amostral) esteja a um desvio padrão da média. Para o efeito sobre eventos adversos, eu escolhi um desvio padrão de modo que OR=1.8 (um aumento de eventos adversos de 80%) esteja a um desvio padrão da média.
Vamos aos resultados. Primeiro a análise bayesiana básica burra do desfecho primário (a mortalidade) que é o que normalmente encontraríamos num paper. Calculamos uma estimativa pontual e um intervalo de 95% de credibilidade para o OR. O resultado é OR = 0.80 com intervalo [0.59,1.08] (como estimativa pontual eu usei a mediana da posteriori e o intervalo de credibilidade foi calculado usando os quantis da posteriori). Veja que o resultado não é tão diferente do frequentista. Podemos calcular também a probabilidade (a posteriori) de superioridade do tratamento e o resultado é 92.7%. Parece muito, mas tipicamente os autores usariam um thresold de 97.5% (que num certo sentido é similar a um p-valor unicaudal de 0.025 e a um p-valor bicaudal de 0.05) e como obtivemos uma probabilidade de superioridade abaixo disso, a conclusão seria que “não funcionou” e a droga não seria aprovada. Então também aqui obtivemos um resultado similar à análise frequentista.
Finalmente, vamos fazer a análise bayesiana realmente relevante para uma tomada de decisão: vamos calcular o valor esperado da utilidade para um paciente tratado e para um paciente controle. Eu vou então escolher um valor (negativo) de utilidade para morte, para eventos adversos leves e para eventos adversos graves. A utilidade total será definida simplesmente como a soma dessas utilidades. No caso de um paciente tratado, devemos também somar uma utilidade negativa que corresponde ao preço que o paciente vai ter que pagar pelo tratamento. Usei as seguintes escolhas:
- utilidade da morte = -10^5
- utilidade de um evento adverso leve = -20
- utilidade de um evento adverso grave = -1000
- utilidade de gastar dinheiro para pagar o tratamento = -100
Eu não me esforcei muito aqui para fazer essas escolhas. Na prática elas poderiam depender do paciente (alguns pacientes estão mais dispostos a tolerar eventos adversos leves do que outros, por exemplo, ou se importam menos em gastar dinheiro). Também dependeriam exatamente de que eventos adversos são esses e de quanto vai custar o tratamento. Usando essas utilidades, eu obtive:
- valor esperado da utilidade para pacientes não tratados: -976.5
- valor esperado da utilidade para pacientes tratados: -887.9
Aceitando então todas as escolhas que eu fiz, a conclusão é que é melhor usar esse tratamento do que não tratar, pois o valor esperado da utilidade foi maior para pacientes tratados. Veja que eu escolhi uma droga que aumenta bastante os eventos adversos leves, que não são tão raros, e ainda aumenta bem os eventos adversos graves (que são razoavelmente raros). No desfecho primário de mortalidade, a eficácia verdadeira não é tão alta e o resultado obtido passou longe de ser estatisticamente significativo. Mesmo assim, numa análise de risco/benefício mais séria, concluímos que compensa tratar!