마오리 텍스트-음성 모델, 빅테크가 놓친 '진정한' 가치는?

뉴질랜드의 토착어인 테 레오 마오리어는 인구의 4.3%만이 유창하지만, 약 30%가 간단한 회화를 할 수 있을 정도로 중요성이 커지고 있습니다. 하지만 ChatGPT 같은 거대 AI 모델들은 마오리 커뮤니티의 허락 없이 데이터를 무단 수집하여 학습하는 문제를 안고 있습니다.

와이카토 대학교 테 타카 키건 교수는 "우리의 언어는 지식을 전달하는 가장 중요한 수단이지만, 외부 기술이 그 통제권을 갖게 된다"고 우려하며, 마오리족에게 심각한 문제라고 지적합니다.

빅테크와 다른, '주권적' 접근 방식

키건 교수와 킹슬리 엥(Kingsley Eng)은 이러한 문제의식에서 출발, 디지털 주권 확보를 위한 고음질 텍스트-음성 시스템 개발에 착수했습니다. 이 프로젝트의 핵심은 모델 구축에 사용된 모든 것이 해당 언어를 사용하는 커뮤니티의 소유로 남아야 한다는 점이었습니다.

이는 빅테크가 간과하는 근본적인 제약을 따르며, 전 세계 소수 언어 커뮤니티를 위한 복제 가능한 청사진을 제시합니다.

마오리어 AI 음성 모델의 특별한 도전과 해결

마오리어는 모음 길이, 이중음자 등 고유한 특징 때문에 영어 기반 AI 모델 적용이 어렵습니다. 예를 들어, ‘keke’(케이크), ‘kēkē’(겨드랑이), ‘kekē’(삐걱거리다)는 모음 길이에 따라 의미가 달라집니다.

또한, 디지털 학습 데이터가 부족한 ‘저자원 언어’입니다. 연구팀은 번역가 응아링이 카티파(Ngaringi Katipa)를 영입, 7시간 45분 분량의 고품질 음성 데이터를 확보했습니다.

데이터가 적음에도 불구하고, 연구팀은 음소 기반 접근 방식과 오픈소스 Piper를 활용하여 6.78%의 '우수'한 단어 오류율을 달성했습니다. 이는 8시간 미만의 데이터로 이룬 놀라운 성과입니다.

Q&A: 마오리 AI 모델의 미래 가치는?

Q: 이 모델의 가장 중요한 가치는 무엇인가요?

A: 언어 보존과 문화적 디지털 주권 확보입니다. 마오리 커뮤니티가 언어와 지식 통제권을 유지하며, 외부 기술로부터 언어가 '식민화'되는 것을 막고자 합니다. Katipa의 목소리가 부족(iwi)의 '타옹아(taonga, 보물)'로 여겨지는 것이 핵심입니다.

Q: 다른 소수 언어 커뮤니티에도 적용될 수 있을까요?

A: 네, 이 프로젝트는 다른 커뮤니티를 위한 복제 가능한 청사진을 제공합니다. 키건 교수는 최소 데이터로 효율적 학습, 음소 기반 입력, 오픈소스 도구, 그리고 커뮤니티 소유를 위한 법적/거버넌스 프레임워크가 있음을 보여주었습니다.

결론: 진정한 언어 주권을 향한 한 걸음

키건 교수의 궁극적인 목표는 단순히 테 레오 마오리어 LLM을 넘어, 각 부족(iwi)이 소유하고 그 언어로 훈련된 다이얼로그별 언어 모델을 구축하는 것입니다.

이는 미래 세대가 자신들의 언어와 전통 지식에 접근할 수 있도록 하는 강력한 수단이 될 것입니다. 이 프로젝트는 윤리적 AI 개발과 문화유산 존중이 어떻게 조화를 이룰 수 있는지 보여주는 모범 사례입니다.