AI 챗봇, 의사 능가하는 진단 능력? 의료 현장 적용의 빛과 그림자

의료 분야에서 인공지능의 역할은 오랫동안 중요한 화두였죠. 진단에 이르는 의사결정 과정, 즉 임상 추론을 돕기 위해 컴퓨터 기술이 활용되리라는 기대는 의학 컴퓨팅 초기부터 존재했더라.

과거에는 증상, 검사 임계치, 약물 상호작용 등에 대한 규칙이 정교하게 쓰인 ‘임상 의사결정 지원 시스템’이 주를 이뤘죠. 하지만 인공지능 기술이 비약적으로 발전하면서, 이제는 우리가 흔히 접하는 거대 언어 모델(LLM)이 그 역할을 맡게 된 것 같아요.

의료 진단 AI, 무엇이 달라졌을까?

최근 "사이언스(Science)"지에 발표된 한 연구 결과가 의료계를 뜨겁게 달구고 있습니다. 오픈AI의 대규모 언어 모델이 실제 응급실 기록을 사용한 여러 임상 추론 과제에서 의사들을 능가하는 성과를 보였더라.

이는 기존의 규칙 기반 시스템을 넘어, AI가 복잡한 의료 데이터를 이해하고 추론하는 능력이 상당 수준에 이르렀다는 방증인 듯합니다.

오픈AI는 이미 ‘ChatGPT for Clinicians’와 ‘ChatGPT for Healthcare’ 같은 의료 전문가용 제품을 시장에 선보였죠. 연구진은 초기 모델의 유망한 성능을 바탕으로 실제 임상 환경에서 의사들이 진단 시점에 AI의 두 번째 의견을 구하는 방식의 추가 테스트를 권고하고 있습니다. 뉴욕 마운트 시나이 아이칸 의과대학의 미카엘 토드주만 교수도 실세계 적용 연구의 중요성에 동의하고 있더라.

AI 의료 진단의 두 얼굴: 환상과 위험 사이

하지만 AI의 의료 적용이 장밋빛 미래만은 아니라는 점을 간과해선 안 돼요. 일부 연구에서는 AI의 인상적인 진단 성능을 보여주는 반면, 다른 연구에서는 AI 챗봇이 허위 정보를 생성하거나 출처를 날조하고, 틀린 조언을 자신감 있게 제시하는 등 우려스러운 결과도 많아요.

특히 일반 사용자 대상의 건강 질문에 대한 챗봇 답변의 거의 절반이 잘못되었다는 연구 결과도 있었죠. AI의 환각 현상(Hallucination)은 의료 분야에서 치명적인 오진율로 이어질 수 있는 문제라서 더욱 신중해야 할 부분이에요.

하버드 의과대학의 아르준 만라이 교수는 "AI가 의사를 대체할 것이라고 생각하지 않는다"고 강조했더라. 의사들이 AI를 임상 의사결정 지원 도구로 사용할 때는 일반인이 건강 질문을 할 때와는 다른 맥락에서 접근해야 하겠죠. 의사들은 AI가 정확한 진단을 내리는 데 필요한 정보를 더 잘 판단하고, 명백한 실수를 식별할 수 있는 배경 지식을 가지고 있으니까요. 하지만 로드먼 박사는 "모델은 맞거나 틀리거나 똑같이 설득력 있게 말을 한다"며 의사조차 AI의 오류를 감지하기 어려울 수 있다고 경고하고 있답니다.

또한, AI의 임상 추론 능력을 평가하는 표준화된 시스템이 아직 없다는 점도 문제예요. 연구자마다 성공의 기준이 달라 매우 다른 결론에 도달할 수 있다는 점, 평가 방법에 따라 AI의 성적이 천차만별이라는 점도 중요한 과제인 듯합니다.

AI, 의료 현장의 미래를 바꿀까? 실제 적용과 과제

"사이언스" 연구에서는 실제 응급실 방문 데이터를 활용해 AI와 의료 전문가의 진단 능력을 여러 단계에서 비교했더라. 정보가 많아질수록 AI와 인간 모두 정확도가 높아졌지만, AI는 일관되게 인간을 약간 앞서는 모습을 보였어요. 최종 체크포인트에서는 AI가 82%의 "정확하거나 매우 근접한 진단"을 내린 반면, 두 명의 의사는 각각 79%와 70%를 기록했죠.

아직 LLM은 10년도 채 되지 않은 신기술이며, 발전 속도는 의료 연구나 학술 문헌의 일반적인 속도보다 훨씬 빨라요. 규제와 책임에 대한 많은 질문들이 아직 답을 찾지 못했죠. 하지만 이미 많은 환자와 의사들이 이 기술을 상담에 활용하고 있는 만큼, AI의 이점과 위험, 그리고 최적의 활용법을 이해하는 것이 시급해 보입니다.

결론적으로, 하버드 대학의 라오 교수가 말했듯 "조심하고 평가하는 것도 중요하지만, 책임 있는 혁신을 통해 기술 발전을 이어나가는 것이 훨씬 중요할 것"이란 생각이 드네요.

자주 묻는 질문 (Q&A)

Q1: AI가 정말 의사를 대체할 수 있을까요?

아니요, 현재로서는 AI가 의사를 완전히 대체할 것이라는 전망은 없습니다. AI는 의사의 진단을 돕는 강력한 도구가 될 수 있지만, 인간 의사의 공감 능력, 복잡한 상황 판단, 환자와의 소통 능력 등을 대체하기는 어렵습니다. 오히려 의사의 업무 부담을 줄이고 진단의 정확도를 높이는 보조 역할이 기대되는 부분인 듯합니다.

Q2: AI 의료 챗봇은 얼마나 신뢰할 수 있나요?

AI 의료 챗봇의 신뢰도는 사용 목적과 모델의 종류, 학습 데이터에 따라 크게 달라집니다. 일부 연구에서는 뛰어난 진단 성능을 보였지만, 다른 연구에서는 허위 정보나 잘못된 조언을 제공하기도 했습니다. 아직 완벽하게 신뢰하기는 어려우며, 특히 일반인의 건강 상담용으로 사용할 때는 반드시 의료 전문가의 최종 의견을 구해야 합니다.

Q3: 일반인이 의료 관련 AI를 사용할 때 주의할 점은 무엇인가요?

AI 챗봇에서 얻은 정보는 참고용으로만 활용해야 합니다. 절대 자가 진단이나 자가 치료의 기준으로 삼아서는 안 됩니다. 의학적 증상이 있거나 진단이 필요하다고 생각되면 반드시 병원을 방문하여 의사와 상담하는 것이 가장 안전하고 정확한 방법입니다.

Q4: 의료 AI의 평가 기준은 왜 통일되지 않았나요?

의료 분야의 복잡성과 AI 모델의 다양한 기능 때문입니다. 진단, 치료 계획, 환자 상담 등 AI가 수행할 수 있는 역할이 다양하고, 각 역할에 맞는 평가 기준을 개발하는 것이 쉽지 않습니다. 또한, '성공'의 정의나 '오류'의 허용 범위에 대한 합의가 아직 이루어지지 않아 연구자마다 다른 평가 방식을 적용하고 있는 실정입니다.

마치며

AI의 발전은 의료 분야에 전례 없는 기회를 제공하고 있습니다. 하지만 그만큼 신중한 접근과 지속적인 검증이 필요한 시점이기도 합니다. AI와 인간 의사가 서로의 강점을 보완하며 협력하는 미래 의료 시스템을 구축하는 것이 우리 모두의 과제인 듯합니다. 책임감 있는 혁신을 통해 환자들에게 더 나은 의료 서비스를 제공할 수 있기를 기대해봅니다.