De acordo com a publicação de 11 de dezembro na JAMA Network Open, o ChatGPT-4 superou os médicos na determinação da probabilidade de doença pré e pós-teste após resultados de testes negativos envolvendo radiografias de tórax e mamografias. Os pesquisadores liderados por Adam Rodman, MD, do Beth Israel Deaconess Medical Center, Boston descobriram, no entanto, que o ChatGPT-4 não teve um desempenho tão bom após resultados de testes positivos.
Os testes de imagem são uma ferramenta de primeira linha para determinar diagnósticos, mas os pesquisadores ressaltam que os profissionais de saúde “muitas vezes têm um desempenho fraco” na estimativa das probabilidades de doença antes e depois da realização dos exames de imagem.
Os pesquisadores testaram o uso de grandes modelos de linguagem (LLMs) para ajudar nos fluxos de trabalho clínicos e auxiliar no diagnóstico de doenças. Os LLMs -Grandes Modelos de Linguagem são modelos de aprendizagem de máquina (Machine Learning) que usam algoritmos para entender a linguagem natural e geram textos. Rodman e colaboradores exploraram a capacidade de um desses modelos, ChatGPT-4, de realizar raciocínio probabilístico. Eles compararam seu desempenho com uma pesquisa realizada com 553 médicos de diversas especialidades, onde os clínicos realizaram raciocínio probabilístico em uma série de cinco casos com padrões de referência científica. Os pesquisadores processaram cada um desses casos no ChatGPT-4 em um modelo projetado para fazer com que a IA fornecesse uma probabilidade específica de pré e pós-teste.
Os casos incluíram os seguintes exames: radiografia de tórax para diagnóstico de pneumonia, mamografia para diagnóstico de câncer de mama, teste de esforço para caracterizar doença arterial coronariana e urocultura para doença do trato urinário. O ChatGPT-4 obteve menos erros na probabilidade pré-teste e pós-teste após um resultado negativo em todos os cinco casos. Isso também ocorreu quando a estimativa mediana do modelo diferia mais da resposta correta do que a estimativa de mediana humana. “Por exemplo, para o caso de bacteriúria assintomática, a probabilidade pré-teste mediana foi de 26% para o LLM versus 20% para os médicos e o erro absoluto médio foi de 26,2 (5.240%) versus 32,2 (6.450%)”, escreveram os pesquisadores.
Segundo a equipe, o ChatGPT-4 também teve uma distribuição de respostas mais estreita em comparação com os médicos. Foi demonstrada maior precisão do que os médicos na estimativa da probabilidade pós-teste após um resultado de teste positivo em dois casos, sendo um deles o câncer da mama. Seu desempenho foi comparativamente mais preciso que os médicos nos casos de pneumonia e isquemia cardíaca na radiografia de tórax, e teve menor precisão no caso de infecção do trato urinário. As estimativas de LLM foram piores do que as estimativas humanas para o de uma infecção do trato urinário (ITU), mas que na verdade era bacteriúria assintomática; alguns médicos reconheceram isso, mas o modelo não o fez estimativas assumindo que o diagnóstico de ITU era o correto.
Os pesquisadores concluíram que o estudo tem limitações no modelo, pois os casos eram simplistas para terem padrões de referência claros. Pesquisas futuras precisarão investigar o desempenho do LLMs em casos mais complexos. No entanto, mesmo que imperfeitas, as recomendações probabilísticas dos LLMs podem melhorar o desempenho do diagnóstico humano através da inteligência coletiva, especialmente se as ajudas de diagnóstico da IA puderem combinar abordagens probabilísticas, narrativas e heurísticas ao diagnóstico.
Artigo original: https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2812737.
(Com informações da JAMA e da CBDL – 28.12.23)