빅테크를 거부한 마오리 AI 음성 합성 모델, 소수 언어 데이터 주권의 새 지평을 열다

뉴질랜드의 언어 풍경은 그 어떤 드라마틱한 자연경관만큼이나 흥미롭다. 세 가지 공용어 중 오직 테 레오 마오리어(te reo Māori)만이 원주민 언어로 분류되는 듯하다. 전체 인구의 4.3%만이 유창하게 구사함에도 불구하고, 약 30%의 뉴질랜드인이 몇 마디 이상의 마오리어를 말할 수 있다는 통계는 그들의 언어에 대한 깊은 애착을 엿볼 수 있게 한다.

하지만 ChatGPT나 Claude 같은 거대 AI 모델에게 테 레오 마오리어를 요청하면 어떨까? 학교나 방송에서 가르치는 표준화된 형태로 유창하게 답변을 쏟아내는 걸 볼 수 있다. 이는 마오리 공동체와 학자들이 만들어낸 텍스트와 오디오 데이터를 그들의 허락 없이 수집하고, 뉴질랜드 밖에서 처리한 뒤, 대형 기술 기업이 소유한 인터페이스를 통해 다시 사용자에게 제공한 결과인 셈이다.

와이카토 대학의 테 타카 키건(Te Taka Keegan) 교수는 “이 해외 기업들은 AI 모델을 잘 만들 자원을 가지고 있다”고 말한다. 그러나 “우리의 언어는 지식을 전달하는 가장 중요한 매개체인데, 아오테아로아(뉴질랜드) 밖에서 개발된 기술이 이 지식 전달에 점점 더 많은 통제권을 행사하고 있다”며 이러한 현실에 대한 깊은 우려를 표했다.

소수 언어, 빅테크 AI의 그림자 속에서

키건 교수는 이러한 상황을 ‘주권적인 디지털 시스템’의 필요성으로 정의했다. 그와 당시 석사 과정 학생이었던 킹슬리 엥(Kingsley Eng)은 특정 마오리어 방언을 위한 고품질 음성 합성(Text-to-Speech, TTS) 시스템 개발에 착수했더라. 이 프로젝트의 핵심은 그 어떤 인공지능 개발에서도 좀처럼 찾아보기 힘든 전제에 있었다. 바로 이 합성 음성과 이를 만드는 데 사용된 모든 것이 해당 방언을 사용하는 사람들의 소유로 남아있어야 한다는 원칙이다.

AI 음성 모델은 주로 영어를 기반으로 구축되는 경우가 많다. 따라서 이를 다른 언어에 적용하면 오류가 발생하기 십상이다. 테 레오 마오리어는 모음 길이의 중요성 같은 독특한 언어적 특징을 가지고 있어 AI 음성 시스템에 추가적인 난관을 안겨주는 듯하다. 예를 들어 ‘케이크(keke)’, ‘겨드랑이(kēkē)’, ‘삐걱거리다(kekē)’는 모음 길이에 따라 의미가 완전히 달라진다. 또한, ‘wh’가 ‘f’로 발음되는 등 이중 문자가 많아 정확한 발음이 언어의 의미를 좌우한다.

테 레오 마오리어가 ‘저자원 언어(low-resource language)’로 분류된다는 점도 큰 도전이었다. 영어처럼 방대한 양의 디지털 텍스트나 음성 데이터가 부족했기 때문이다. 이 문제 해결을 위해 키건 교수는 번역가이자 교육자, 언어 멘토인 응아링이 카티파(Ngaringi Katipa)를 영입해, 그의 동의를 얻어 인공지능 도구의 ‘목소리’가 되어달라고 요청했더라.

마오리 AI, 데이터 주권을 지켜내다

연구팀은 와이카토-마니아포토(Waikato-Maniapoto)라는 특정 방언에 집중했다. “방언 속에 언어의 진정한 아름다움이 있고, 그것이 특정 장소와 정체성에 연결된다”는 키건 교수의 철학이 담긴 결정인 듯 보인다. 카티파의 목소리로 책 구절들을 녹음하여 4.5시간 분량의 데이터를 확보했고, 이후 희귀 단어를 포함한 종합적인 문장 목록을 추가 녹음하여 총 7시간 45분 분량의 고품질 데이터를 완성했다.

음성 합성 시스템 구축에는 문자 기반과 음소 기반의 두 가지 데이터 입력 방식이 있다. 연구팀은 두 가지 모두 시도했으나, 음소 기반 접근법이 훨씬 뛰어난 결과를 보였다고 한다. 음소 규칙을 모델에 제공하는 것이 학습 과정을 단축시키는 ‘지름길’ 역할을 한 셈이다. 이를 위해 연구팀은 베타 버전의 마오리어 규칙 세트가 포함된 오픈소스 도구 eSpeak NG를 활용했다.

세 가지 오픈소스 신경망 아키텍처(Matcha-TTS, Tacotron2, Piper)를 테스트한 결과, 로컬 머신에서 오프라인으로 실행 가능한 Piper가 가장 좋은 결과를 보여 최종 시스템 구축에 선택되었다. 일반적으로 수백 시간이 권장되는 음성 합성 모델 훈련에 비해, 8시간 미만의 고품질 녹음만으로도 효과적인 AI 음성을 만들어냈다는 점은 놀랍다. 이 AI 음성은 6.78%의 단어 오류율을 달성했는데, 이는 현재 산업 표준에서 ‘양호’한 수준으로 평가된다.

연구팀은 개발 과정 내내 전문 마오리어 평가자를 통해 음성의 자연스러움, 발음 정확성, 표현력을 면밀히 평가받았다. 또한, 마오리어를 유창하게 구사하는 68명의 스피커를 대상으로 인간의 목소리와 합성된 오디오를 구분하는 테스트를 진행했으며, 65%의 정확도로 목소리를 식별했다고 한다. 키건 교수는 “화자의 가족 구성원 중 일부는 그녀의 목소리를 정말 잘 알고 있었지만, 몇몇은 여전히 틀렸다는 점이 고무적이었다”며 만족감을 드러냈다.

작은 시도로 열어가는 큰 변화: 미래는?

구글이 와이카토 팀에 자금을 지원했지만, 키건 교수는 아무런 조건이나 소유권 주장 없이 이루어졌다고 밝혔다. 이는 카티파의 작업에 정당한 보상을 할 수 있는 중요한 발판이 되었다. 키건 교수에게 이 도구의 소유권 문제는 여전히 최우선 과제이다. 표준적인 지식 재산권 관점에서 음성은 카티파의 소유이지만, 마오리 관점에서는 공동체의 소유라는 것이다.

“이것은 그녀의 조상으로부터 물려받은 보물이며, 그녀의 역할은 자녀와 손자녀를 위해 그것을 보호하는 것”이라고 키건 교수는 설명했다. 따라서 연구팀은 이 음성 모델을 공개적으로 출시하는 대신, 카티파가 소속된 세 부족(이위, iwi)인 와이카토, 마니아포토, 라우카와와 논의 중이다. 이 기술에 대한 데이터 주권은 “대학보다는 그들에게 있어야 한다”는 것이 그의 굳건한 신념인 듯하다.

웰링턴 기반의 기업인 Catalyst IT는 음성 모델을 1년 동안 운영하는 데 필요한 웹사이트 호스팅과 컴퓨팅 파워를 기부하며 이러한 움직임에 힘을 보탰다. 뉴질랜드의 마오리 미디어 단체인 테 히쿠 미디어(Te Hiku Media)도 이미 마오리 문화와 언어를 위한 자동 음성 인식 시스템을 개발했으며, 데이터가 마오리족의 이익을 위해서만 사용될 수 있도록 하는 ‘카이티아키탕아(Kaitiakitanga)’ 라이선스 아래 모델을 공개했더라.

가상 비서, 화면 낭독기, 내비게이션 시스템 등 인공지능 기반 음성 기술은 이미 우리 삶의 필수 요소가 되었다. 키건 교수에게 이러한 도구는 “우리의 언어를 정화하고 식민화”하는 방식이 될 수도 있고, “나의 손주들에게 전통 지식을 부여”하는 수단이 될 수도 있다. 그 차이는 누가 기술을 개발하고 소유하는지에 달려있다고 그는 단언한다. “우리 손주들이 우리의 시스템을 통해 지식에 접근하기를 바란다”는 그의 소망이 이 음성 합성 프로젝트의 궁극적인 목표인 듯하다.

장기적인 목표는 동일한 오픈소스, 커뮤니티 소유 방법론을 활용하여 완전한 소수 언어 언어 모델을 구축하는 것이다. “테 레오 마오리 대규모 언어 모델이 아니라, 마니아포토 대규모 언어 모델, 투호에 대규모 언어 모델 등이 될 것”이라며, 각 모델이 해당 언어를 사용하는 사람들의 소유가 되고 그들의 언어로 훈련되기를 바란다고 키건 교수는 말했더라. 와이카토 프로젝트는 최소한의 데이터로 효율적인 훈련, 음소 기반 입력, 오픈소스 도구, 그리고 커뮤니티 소유권을 위한 법적 및 거버넌스 프레임워크와 같은 필요한 인프라가 이미 존재함을 보여주는 셈이다. 그는 이 템플릿을 다른 부족들이 활용하도록 기꺼이 돕겠다고 밝혔다.

자주 묻는 질문 (Q&A)

Q1: 이 마오리 AI 음성 합성 모델은 기존 빅테크 모델과 무엇이 다른가요?

A1: 가장 큰 차이점은 '데이터 주권'에 있습니다. 빅테크 기업들은 마오리 커뮤니티의 동의 없이 데이터를 수집하고 사용하지만, 이 모델은 마오리 공동체의 참여와 소유권을 전제로 개발되었으며, 최종 소유권은 해당 부족에 귀속되는 구조입니다.

Q2: 왜 마오리어는 AI 모델 개발에 어려움이 많은 '저자원 언어'로 분류되나요?

A2: 영어, 중국어 등 주류 언어에 비해 디지털화된 텍스트, 데이터 세트, 녹음된 음성 자료가 매우 적기 때문입니다. 또한, 모음 길이의 중요성 등 독특한 언어적 특징이 있어 일반적인 AI 모델을 그대로 적용하기 어렵다는 점도 있습니다.

Q3: 이 프로젝트가 다른 소수 언어 공동체에 어떤 의미를 가질 수 있을까요?

A3: 최소한의 데이터와 오픈소스 도구, 커뮤니티 소유권 프레임워크를 활용하여 고품질 AI 음성 모델을 성공적으로 구축한 사례입니다. 이는 다른 저자원 언어나 소수 언어 공동체들이 자신들의 언어를 보호하고 활성화하기 위한 AI 기술을 개발할 수 있는 실질적인 '청사진'을 제공하는 셈입니다.

Q4: '데이터 주권'이 정확히 무엇을 의미하나요?

A4: 데이터 주권은 특정 데이터에 대한 통제권과 소유권이 해당 데이터를 생성한 개인, 공동체 또는 국가에 있다는 개념입니다. 이 사례에서는 마오리 언어 데이터와 그로부터 파생된 AI 모델의 소유권이 마오리 공동체, 즉 해당 부족에게 있어야 한다는 것을 의미합니다.

마치며

뉴질랜드 마오리족의 AI 음성 합성 모델 개발 소식은 단순한 기술적 성과를 넘어선다. 이는 소수 언어 공동체가 자신들의 언어와 문화를 지키고 발전시키기 위해 빅테크의 거대한 흐름 속에서 어떻게 주체성을 확립할 수 있는지를 보여주는 강력한 메시지인 듯하다. 언어는 단순한 의사소통 수단이 아닌, 한 민족의 정체성과 지식, 역사를 담는 그릇이다. 이 프로젝트가 전 세계 수많은 소수 언어들에게 희망의 불씨가 되기를, 그리고 언어 다양성이 존중받는 미래를 앞당기는 계기가 되기를 기대해 본다.