AI 챗봇, 의사 능가할까? 의료 진단의 새 지평이 열리다!

오랜 시간 동안 컴퓨터 기술이 의학 분야에서 꿈꾸던 목표 중 하나는 바로 임상 추론, 즉 진단을 내리고 치료 계획을 수립하는 일련의 의사결정 과정을 돕는 것이었습니다. 수많은 임상 결정 지원 시스템들이 등장했지만, 증상, 검사 기준, 약물 상호작용 등에 대한 복잡한 규칙들을 수동으로 작성해야 하는 한계가 명확했죠. 하지만 AI 챗봇, 특히 대규모 언어 모델(LLM)의 발전은 이 판도를 송두리째 흔들고 있습니다.

최근 *사이언스(Science)*지에 발표된 연구 결과는 전 세계 의료계를 뒤흔들 만합니다. OpenAI의 LLM이 실제 응급실 기록을 사용한 여러 임상 추론 작업에서 의사들을 능가하는 성과를 보였기 때문입니다. 이는 AI가 단순 보조를 넘어, 의학적 판단의 핵심 영역에 깊숙이 개입할 수 있음을 시사하는 듯합니다.

물론 AI 챗봇의 의료 정보에 대한 우려가 완전히 사라진 것은 아닙니다. 일부 연구에서는 인상적인 진단 능력을 보여주기도 하지만, 동시에 조작된 인용, 오류투성이 조언, 심지어 연구자의 평가 방식에 따라 결과가 달라지는 등 불안정한 모습을 보이기도 했더라. 하지만 이러한 불확실성 속에서도 OpenAI는 이미 'ChatGPT for Clinicians'와 'ChatGPT for Healthcare'와 같은 의료 전문가용 제품들을 선보이며 시장에 진입하고 있습니다.

AI의 임상 추론 능력, 어디까지 왔나?

OpenAI의 o1-preview 모델은 이미 개선된 버전이 출시되었음에도 불구하고, 그 성능은 연구진이 실제 임상 사례에서 LLM의 추가 테스트를 권고할 만큼 유망했습니다. 뉴욕 마운트 시나이 아이칸 의과대학의 미카엘 토르드즈만(Mickael Tordjman) 교수 역시 “실험적 임상 시험에서 더 많은 증거가 필요하다”며, 의료용으로 특별히 훈련된 최신 LLM은 훨씬 더 나은 성능을 보일 것이라고 전망했죠.

하지만 *사이언스*지 논문의 공동 저자인 하버드 의과대학의 아르준 만라이(Arjun Manrai) 박사는 "우리의 연구 결과가 AI가 의사를 대체한다는 의미는 아니다"라고 강조합니다. 보스턴 베스 이스라엘 디코니스 메디컬 센터의 애덤 로드먼(Adam Rodman) 박사 역시 "정말 멋진 연구이지만, 결과가 어떻게 사용될지 우려되는 부분이 있다"고 솔직히 밝혔습니다. 대규모 언어 모델 (LLM)의 잠재력은 크지만, 그 활용에는 신중함이 필요하다는 지적입니다.

현실 속 AI 챗봇의 두 얼굴: 기대와 우려

일반 사용자들이 건강 관련 질문에 챗봇을 사용할 때의 신뢰도 문제는 여전히 심각합니다. 한 연구에서는 인기 챗봇 5개가 내놓은 건강 관련 답변의 거의 절반이 결함이 있었으며, 정보를 조작하고 출처를 위조하며, 정확성 여부와 상관없이 자신감 넘치는 답변을 제시했더라. 하버드 대학의 아리아 라오(Arya Rao) 박사는 "이러한 모델들이 매일 사용되고 있지만, 측정되거나 완화되지 않는 위험이 존재한다"고 경고합니다.

물론 의료 진단 지원 도구로서 의사가 LLM을 사용하는 것은 일반 사용자 질문과는 다른 차원의 문제입니다. 의사는 AI가 정확한 진단을 내리거나 치료 계획을 수립하는 데 어떤 정보가 필요한지 더 잘 이해하고, 명백한 실수를 식별할 수 있는 배경 지식을 가지고 있으니까요. 그럼에도 불구하고, 애덤 로드먼 박사는 "모델은 옳든 틀리든 똑같이 설득력 있다"며 의사에게도 '환각(hallucination)' 탐지가 어려울 수 있음을 지적합니다. 오류율이 낮은 작업 흐름을 찾아야 한다는 겁니다.

LLM 평가 방식의 불일치도 문제입니다. *사이언스*지 연구와 유사한 임상 추론 과제를 수행한 또 다른 연구에서는, LLM의 최종 진단 능력은 높게 평가되었으나, '감별 진단' 질문에서는 다른 평가 시스템 때문에 낮은 점수를 받았더라. 미카엘 토르드즈만 교수는 "LLM의 임상 추론 능력을 평가할 완벽한 방법은 아직 없다"고 말합니다. 현재 의료 현장에서 AI를 도입하는 과정에서 이러한 평가 기준 마련이 시급해 보입니다.

미래 의료의 판도를 바꿀 AI, 어떻게 활용할까?

*사이언스*지 연구팀은 실제 응급실 방문 환자 76명의 데이터를 활용해 LLM과 의사들의 진단 정확도를 비교했더라. 환자의 응급실 도착 시점부터 진료 후, 그리고 다른 병동으로 이동한 후까지 여러 단계에서 진단을 요청했는데, LLM은 인간 의사보다 지속적으로 우위를 점하는 경향을 보였습니다. 최종 단계에서는 LLM이 82%의 정확도로 '정확하거나 매우 근접한 진단'을 내린 반면, 두 의사는 각각 79%와 70%의 정확도를 기록했죠.

LLM은 등장한 지 10년도 채 되지 않은 기술이며, 그 발전 속도는 의료 연구나 학술 문헌의 일반적인 속도보다 훨씬 빠릅니다. 규제와 책임에 대한 많은 질문들이 여전히 풀리지 않고 있지만, 이미 많은 환자와 의사들이 이 기술을 사용하고 있는 상황. *IEEE 스펙트럼*과의 인터뷰에서 연구자들은 AI의 이점, 위험성, 그리고 최적의 활용 방안을 이해하는 것이 시급하다고 입을 모읍니다. 아르준 만라이 박사는 "AI 대 인간"이라는 프레임에서 벗어나, "인간이 이 기술과 어떻게 상호작용할지"에 초점을 맞춰야 한다고 강조합니다. 하버드의 아리아 라오 박사는 "조심하고 평가하는 것이 중요하지만, 혁신하는 것이 훨씬 더 중요하다"며, 책임감 있는 혁신이 나아갈 길이라고 역설합니다.

자주 묻는 질문 (Q&A)

Q1: AI가 의사를 완전히 대체할 수 있을까요?

A: 현재로서는 "아니요"가 정답인 듯합니다. 연구 결과는 AI가 임상 추론에서 뛰어난 보조 도구가 될 수 있음을 보여주지만, 의사의 경험, 공감 능력, 윤리적 판단은 AI가 대체하기 어려운 영역입니다. 만라이 박사의 말처럼, AI는 의사를 대체하기보다는 협력하는 형태로 발전할 가능성이 높다고 보입니다.

Q2: AI 챗봇의 의료 정보는 얼마나 신뢰할 수 있을까요?

A: 일반 사용자가 건강 관련 질문을 할 때는 매우 신중해야 합니다. 챗봇은 잘못된 정보를 자신감 있게 제시할 수 있으므로, 반드시 전문가의 검증을 거치거나 실제 의료기관을 방문해야 합니다. 다만, 의사를 위한 임상 결정 지원 도구로서의 AI는 의사의 전문 지식으로 오류를 걸러낼 수 있어 신뢰도가 더 높다고 할 수 있습니다.

Q3: 의료 AI의 안전성은 어떻게 확보할 수 있을까요?

A: 더 많은 실제 임상 시험을 통해 AI의 정확성과 안전성을 검증하고, 명확한 규제와 책임 소재를 마련하는 것이 중요합니다. 또한, AI가 잘못된 정보를 제시했을 때 의사가 이를 인지하고 수정할 수 있는 효율적인 '워크플로우'를 개발하는 것도 필수적인 과제로 보입니다.

Q4: 의료 현장에서 AI는 어떻게 활용될까요?

A: AI는 의사에게 두 번째 의견을 제공하거나, 복잡한 임상 데이터를 분석하여 진단 및 치료 계획 수립을 돕는 '결정 지원 도구'로 활용될 가능성이 큽니다. 특히 응급 상황에서 신속한 정보 제공과 초기 진단에 큰 도움을 줄 수 있을 듯합니다.

마치며

AI 챗봇이 의료 분야, 특히 임상 추론이라는 핵심 영역에서 보여주는 능력은 실로 놀랍습니다. 의사들을 능가하는 진단 정확도를 보여주며 미래 의료의 청사진을 제시하는 듯한데요. 하지만 동시에 AI의 '환각' 문제, 불완전한 평가 시스템, 그리고 규제 미비와 같은 넘어야 할 산들도 분명합니다. 중요한 것은 AI와 인간 의사가 대결하는 구도가 아니라, AI를 신중하고 책임감 있게 활용하여 환자들에게 더 나은 의료 서비스를 제공하는 방향으로 나아가는 것일 겁니다. 앞으로 AI가 의료 현장에 가져올 변화를 기대하며, 동시에 그 발전 과정을 주의 깊게 지켜봐야 할 시점인 듯합니다.