Estudo mostra que IA da OpenAI o1 supera médicos em raciocínio clínico no pronto-socorro

Aline Rodrigues Moreira • June 12, 2026 23:38

Em um estudo recente, um sistema de IA superou médicos em uma ampla bateria de testes de raciocínio médico, incluindo casos confusos de pronto-socorro extraídos de prontuários reais.

O achado leva a IA médica para além do bom desempenho em provas e aproxima o debate da questão mais difícil: como avaliá-la com segurança para uso em hospitais.

A IA lida bem com prontuários desorganizados

Em 76 registros de pronto-socorro, o modelo precisou trabalhar com anotações fragmentadas, lacunas de informação e decisões iniciais tomadas antes de qualquer diagnóstico estar confirmado.

Arjun K. Manrai é professor assistente e pesquisa dados médicos na Harvard Medical School (HMS).

Ao comparar os prontuários do pronto-socorro com as respostas de médicos, o professor Manrai identificou em que pontos o sistema de IA tinha vantagem.

Essa vantagem apareceu mesmo antes de os pacientes chegarem à fase mais “organizada” da internação hospitalar.

Foi justamente a incerteza do começo - e não cenários bem-acabados de livros-texto - que se tornou o ponto de pressão e deixou o resultado difícil de ignorar.

A IA supera médicos nos primeiros momentos

Na triagem - a primeira etapa de classificação no atendimento de emergência - o modelo apontou um diagnóstico exato ou muito próximo em 67.1 por cento dos casos.

Depois que um médico de emergência reuniu mais informações, a taxa subiu para 72.4 por cento e, na admissão, chegou a 81.6 por cento.

Os médicos assistentes, responsáveis por supervisionar o cuidado do paciente, também melhoraram conforme novos dados chegavam, mas os seus resultados iniciais permaneceram abaixo dos da IA.

Essa diferença fez dos primeiros minutos do atendimento a parte mais reveladora da comparação.

Provas antigas já não servem como parâmetro

Desde 1959, casos diagnósticos por escrito ajudam médicos e cientistas da computação a definir referências de desempenho para IA médica - testes-padrão usados para comparar sistemas.

Com o tempo, as pontuações em questões de múltipla escolha começaram a perder utilidade à medida que modelos mais novos passaram a encostar no topo desses exames antigos.

“Costumávamos avaliar modelos com testes de múltipla escolha; agora eles estão consistentemente pontuando perto de 100 por cento e não conseguimos mais acompanhar o progresso porque já estamos no teto”, disse o Dr. Peter G. Brodeur, um dos principais autores do estudo.

As notas quase perfeitas levaram os pesquisadores a checar se o bom desempenho se mantinha quando os prontuários reais continuavam desorganizados.

A IA sugere diagnósticos e próximos passos

As pontuações foram produzidas por um modelo de linguagem de grande porte - um tipo de software treinado para gerar texto a partir de padrões em conjuntos de dados gigantescos.

O sistema veio da série o1 da OpenAI, uma família de modelos avaliada em raciocínio médico passo a passo.

Em vez de selecionar apenas uma resposta, ele listou diagnósticos prováveis e sugeriu qual deveria ser a próxima ação no cuidado.

Essa tarefa mais ampla aproximou o teste do trabalho diário de um médico, ainda que permanecesse limitada ao que estava disponível por escrito.

Registros de saúde reais são confusos

Os registros do Beth Israel Deaconess Medical Center (BIDMC), um hospital universitário de Boston, não foram “limpos” antes de serem apresentados ao modelo.

Prontuários eletrónicos reais - ficheiros digitais que guardam detalhes do cuidado ao paciente - frequentemente misturam anotações antigas, entradas repetidas e pistas que simplesmente não aparecem.

“Não fizemos nenhum pré-processamento dos dados”, disse o Dr. Adam Rodman, pesquisador clínico do BIDMC.

Entradas desorganizadas importam porque pequenas omissões podem mudar qual diagnóstico parece urgente o suficiente para ser investigado primeiro.

Como diagnósticos por IA podem acrescentar riscos

Mesmo quando o diagnóstico principal está correto, o cuidado pode desviar se o sistema pedir exames adicionais desnecessários.

Tomografias a mais, colheitas de sangue ou procedimentos podem gerar falsos alarmes, atrasos, custos e risco físico.

“Um modelo pode acertar o diagnóstico principal, mas também sugerir exames desnecessários que poderiam expor um paciente a danos”, disse Brodeur.

Por isso, a segurança depende do conjunto completo de recomendações - não apenas do primeiro nome na lista de diagnósticos.

Médicos ainda percebem mais do que texto

O cuidado clínico envolve muito mais do que texto, e este teste não avaliou tudo o que os médicos conseguem perceber.

Timbre de voz, esforço respiratório, postura, imagens, preocupações da família e mudanças à beira do leito podem orientar decisões antes de as notas refletirem o que está a acontecer.

Modelos fundacionais atuais - sistemas de IA de uso geral treinados para muitas tarefas - ainda enfrentam mais dificuldades quando o som e as imagens é que carregam as pistas.

Esse limite impede que o resultado seja usado como argumento para substituir clínicos no atendimento direto.

IA comparada diretamente com médicos

A comparação com humanos fortaleceu o trabalho da equipa porque o modelo não foi colocado apenas contra softwares antigos.

Centenas de médicos forneceram pontos de comparação em desafios de casos, planos de condução, estimativas de probabilidade e segundas opiniões no pronto-socorro.

No teste com registros reais do BIDMC, os avaliadores ficaram cegos, isto é, não sabiam se um diagnóstico vinha de uma pessoa ou do modelo.

Esse desenho reduz o risco de favorecimento, mas não consegue demonstrar se a ferramenta melhora o cuidado com pacientes em tempo real.

O futuro da IA na medicina

Pontuações fortes em referências de avaliação agora criam um problema prático para hospitais, reguladores, desenvolvedores e pacientes que precisam de evidências.

Ensaios clínicos prospectivos poderiam verificar se a assistência por IA altera desfechos dos pacientes durante atendimentos reais.

“Nós testámos o modelo de IA contra praticamente todas as referências, e ele eclipsou tanto modelos anteriores quanto as nossas linhas de base de médicos”, disse Manrai.

Um desempenho nesse nível torna necessário medir como o sistema se comporta no cuidado real, onde atrasos, excesso de exames, pistas perdidas e confiança indevida podem moldar os resultados dos pacientes.

A mensagem para a medicina não é que as máquinas substituem médicos, e sim que segundas opiniões baseadas em texto podem em breve tornar-se ferramentas passíveis de teste.

Para uso seguro, médicos, engenheiros e pacientes terão de ponderar, ao mesmo tempo, precisão, dano, velocidade, custo e confiança.