우리 일상에 깊숙이 파고든 음성 AI 시스템, 과연 안전할까요? 최근 놀라운 연구 결과가 발표되어 뜨거운 감자가 되고 있습니다.
스마트 스피커, 디지털 비서, 고객 서비스 챗봇 등 음성 AI 시스템은 이미 우리 생활의 필수 요소가 되었습니다. 음성 명령으로 기기를 제어하고, 회의 내용을 녹취하며, 심지어 배경 음악까지 식별하는 시대죠.
하지만 이 편리함 뒤에 섬뜩한 그림자가 드리워지고 있습니다. 사람의 귀에는 전혀 들리지 않는 소리를 이용해 AI를 조작, 사용자가 모르는 사이에 무단 명령을 실행하게 만드는 새로운 보안 취약점이 발견된 것입니다.
AudioHijack: 들리지 않는 공격의 실체
IEEE 심포지엄에서 공개될 예정인 이 연구는 'AudioHijack'이라는 기술을 통해 LALM(Large Audio-Language Models)을 손쉽게 하이재킹할 수 있음을 보여줍니다.
평균 79~96%의 높은 성공률로, 변조된 오디오 클립이 모델의 행동을 마음대로 조종할 수 있다고 합니다. 심지어 사용자가 어떤 지시를 내리든 상관없이 작동하며, 반복 공격도 가능합니다.
연구팀은 Microsoft, Mistral 등 13개 주요 공개 모델을 대상으로 실험했으며, 민감한 웹 검색, 공격자 제어 파일 다운로드, 사용자 데이터가 포함된 이메일 전송까지 가능했음을 입증했습니다.
이 연구를 이끈 저장대학교 첸 멍 박사과정생은 "이 신호를 훈련하는 데 불과 30분밖에 걸리지 않으며, 문맥에 구애받지 않아 언제든 모델을 공격할 수 있다"고 경고했습니다.
‘적대적 오디오’ 어떻게 작동하나?
이번 연구는 수년간 진행된 '적대적 오디오' 연구의 연장선상에 있습니다. 기존에는 음성 인식이나 오디오 분류와 같은 단방향 작업에서 모델을 속이는 데 중점을 뒀죠.
하지만 AudioHijack은 응답을 생성하고 행동을 취할 수 있는 생성형 모델을 노린다는 점에서 차별화됩니다. 악의적인 지침을 오디오 형태로 숨겨 모델이 원치 않는 행동을 하도록 유도하는 것이죠.
온라인 비디오, 음악 클립, 음성 메모 등에 악성 지침을 숨기거나, Zoom 통화에서 AI 전사 서비스로 업로드되는 오디오에 악성 오디오를 주입하는 등의 실제 공격 시나리오가 가능합니다.
연구진은 디지털 오디오 파일의 파형을 미묘하게 조정하여 사람이 듣기에는 변화가 없지만, AI 모델이 처리할 때 의도치 않은 동작을 유발하는 방식을 사용했습니다.
우리의 AI는 안전할까?
아쉽게도 현재의 방어 체계는 AudioHijack에 취약한 것으로 드러났습니다. 모델에 악성 지침의 예를 제공하거나, 응답의 일치 여부를 검토하게 하는 방식으로는 공격 성공률을 크게 낮추지 못했습니다.
유일하게 효과적인 방법은 모델의 내부 '주의 메커니즘'을 모니터링하여 공격 시도를 감지하는 것이었습니다. 그러나 공격자가 이를 인지하면 공격 성공률을 약간 낮추는 대가로 회피할 수 있다고 합니다.
물론 실제 환경에서는 압축이나 후처리 과정에서 신호가 저하될 수 있지만, UMass Amherst의 유진 바그다사리안 교수는 "텍스트 데이터는 이상 징후를 파악할 수 있지만, 오디오는 우리 청각의 한계 때문에 정말 도전적"이라고 말했습니다.
결론: AI 보안의 새로운 과제
음성 AI 기술의 발전은 놀랍지만, 그만큼 새로운 보안 위협도 함께 커지고 있습니다. AudioHijack과 같은 보이지 않는 공격은 사용자에게 심각한 프라이버시 침해와 보안 위험을 초래할 수 있습니다.
기술 개발자들은 모델 설계 단계부터 취약점을 면밀히 검토하고, 더욱 강력한 방어 메커니즘을 구축해야 할 것입니다. 우리 사용자들도 AI 시스템을 사용할 때 늘 주의를 기울이고 최신 보안 소식에 귀 기울여야 합니다.