AI, 의료 진단을 의사보다 잘한다? 미래 병원의 모습은?

오랫동안 컴퓨터가 의료 분야에서 임상 추론, 즉 진단과 치료 계획 수립을 돕는 것은 중요한 목표였습니다.

최근 OpenAI의 대규모 언어 모델(LLM)이 실제 응급실 기록을 사용한 여러 임상 추론 작업에서 심지어 의사들을 능가했다는 놀라운 연구 결과가 ‘사이언스(Science)’지에 발표되었습니다.

이 소식은 AI의 의료 혁신에 대한 기대감을 높이지만, 동시에 신중론도 제기되고 있습니다.

AI, 의료 현장에 발을 딛다

‘사이언스’ 연구는 OpenAI의 이전 모델인 o1-preview가 우수한 성능을 보였으며, 이는 LLM의 실생활 적용 가능성에 대한 추가 테스트의 필요성을 시사합니다.

특히 응급실 데이터를 사용한 실험에서 LLM은 최종 진단 단계에서 82%의 정확도를 보여, 79%와 70%를 기록한 두 명의 의사보다 앞섰습니다.

이미 OpenAI는 ‘ChatGPT for Clinicians’와 ‘ChatGPT for Healthcare’와 같은 전문가용 제품을 시장에 선보이며, AI가 의료 현장에 본격적으로 발을 딛고 있음을 보여줍니다.

하지만 AI의 의료 진단 능력에 대한 낙관론만 있는 것은 아닙니다. 다른 연구에서는 챗봇이 환자 건강 질문에 대해 절반 가까이 부정확하거나, 심지어 존재하지 않는 정보를 ‘환각’처럼 지어내는 경우가 발견되기도 했습니다.

하버드 의대의 아리아 라오 연구원은 이러한 모델의 위험이 제대로 정량화되거나 완화되지 않고 있다고 지적합니다.

또한, LLM의 평가 방식에 대한 표준이 없어 연구마다 결과가 크게 달라질 수 있다는 점도 문제입니다. 정확한 평가 기준이 없이는 AI의 실제 효용성을 판단하기 어렵습니다.

그렇다면 AI는 의료 현장에서 어떤 역할을 해야 할까요? 연구 공동 저자인 아르준 만라이는 “AI가 의사를 대체하는 것이 아니다”라고 강조합니다.

핵심은 ‘AI 대 인간’이 아니라 ‘인간이 이 기술과 어떻게 협업할 것인가’로 초점을 옮겨야 한다는 것입니다. 의사는 AI의 도움을 받아 더 정확하고 효율적인 진료를 제공할 수 있습니다.

물론 새로운 LLM 모델이나 의료용으로 특화된 모델이 더 나은 성능을 보여줄 수 있지만, 실제 임상 시험에서 더 많은 검증이 필요합니다. 아리아 라오 연구원 역시 “신중하게 평가하고, 동시에 책임 있는 혁신을 이루는 것이 중요하다”고 역설합니다.

규제와 책임 문제 또한 해결되어야 할 중요한 과제입니다. AI가 잘못된 진단을 내렸을 때 누가 책임을 져야 할지 등에 대한 사회적 합의가 필요합니다.

AI의 발전은 의료 분야에 엄청난 기회를 제공하지만, 동시에 해결해야 할 과제들도 많습니다.

환자 안전을 최우선으로 고려하며, 의사들이 AI를 효과적인 보조 도구로 활용할 수 있도록 끊임없는 연구와 사회적 합의가 필요할 것입니다.

AI가 의료 시스템의 효율성과 정확성을 높여 더 많은 환자에게 더 나은 진료를 제공하는 미래를 기대합니다.