
Nos últimos anos, ferramentas de inteligência artificial passaram a oferecer chatbots que respondem dúvidas médicas em pouquíssimos segundos. Apesar da popularização, um novo estudo publicado na revista Nature Medicine em 9 de fevereiro indica que as plataformas ainda cometem muitos erros graves ao orientar pacientes.
Além de estarem equivocadas com frequência, a pesquisa indica que as ferramentas não superam os mecanismos tradicionais de busca — como o Google — quando o assunto é orientar pacientes sobre o que fazer diante dos sintomas.
A pesquisa avaliou o desempenho de modelos comerciais de inteligência artifical que são muito usados pela população, como o ChatGPT, desenvolvido pela OpenAI, e o Llama, da Meta, em situações clínicas simuladas. A conclusão foi que, apesar dos avanços tecnológicos, os sistemas ainda não estão prontos para orientar diretamente pacientes em decisões médicas.
Como o estudo foi feito
Mais de 1,2 mil voluntários do Reino Unido receberam uma descrição de um caso fictício, com informações sobre sintomas, histórico médico e estilo de vida. A maioria não tinha nenhuma formação na área da saúde.
A partir desses dados, os participantes precisavam conversar com chatbots de inteligência artificial para decidir qual seria a melhor atitude: procurar atendimento de emergência, marcar consulta ou cuidar do problema em casa.
Antes do início do experimento, um grupo de médicos definiu quais seriam as respostas corretas para cada caso. Depois, os pesquisadores compararam o desempenho de quem usou os chatbots com o de outro grupo que buscou informações da maneira tradicional, principalmente pelo Google.
O resultado que chamou mais atenção foi quando os próprios pesquisadores inseriram nos chatbots todas as informações médicas completas, sem deixar nenhum detalhe de fora, o índice de diagnóstico correto chegou a 94%. Isso indica que a qualidade da resposta depende diretamente da clareza e da quantidade de informações fornecidas.
Erros, omissões e respostas inventadas
A análise das interações mostrou que parte das falhas ocorreu porque os usuários não incluíam detalhes importantes — como intensidade da dor, localização ou duração dos sintomas. Com informações incompletas, os sistemas ofereciam recomendações limitadas ou imprecisas, com índice de acerto em torno de 34%.
Em um dos exemplos, sintomas de dores abdominais intensas foram interpretadas como possível indigestão, quando o quadro, na verdade, poderia indicar cálculos biliares. Isso ocorreu porque faltaram dados fundamentais na descrição feita pelo paciente.
Além disso, também foram registrados casos de informações inventadas. Em uma situação, o chatbot orientou o usuário a ligar para um número de emergência que não existia, com dígitos insuficientes para completar uma chamada.
Pequenas mudanças, mas com grandes diferenças
Os pesquisadores também perceberam que a forma como a pergunta é escrita faz muita diferença no resultado. Mudanças pequenas na descrição dos sintomas foram suficientes para gerar orientações completamente diferentes — mesmo quando o quadro clínico era praticamente o mesmo.
Em dois exemplos do estudo, os participantes relataram sintomas parecidos: dor de cabeça forte, rigidez no pescoço e sensibilidade à luz. Em uma das conversas, o chatbot respondeu que não era necessário procurar atendimento imediato. Já em outra situação, com uma descrição muito parecida, a recomendação foi ir com urgência ao pronto-socorro.
Segundo os pesquisadores, a variação nas respostas é um fator preocupante porque mostra que a orientação dos chatbots pode mudar drasticamente por causa de detalhes mínimos na forma de escrever a pergunta.
Uso crescente de ferramentas de IA
A busca por orientações médicas está entre os temas mais frequentes nas interações com chatbots. Pesquisas indicam que cerca de um em cada seis adultos utilizam as ferramentas mensalmente para tirar dúvidas de saúde.
Apesar da popularidade e facilidade de conseguir respostas rápidas, a conclusão é que embora promissora, a inteligência artificial não substitui avaliação médica profissional e pode falhar justamente nos casos em que a decisão correta é mais urgente.
Com informações de Metrópoles.







