마오리 AI, 빅테크의 가치관을 거부하다? 언어 주권을 지키는 혁신적인 움직임!

AI news image

안녕하세요, AI와 SEO 트렌드를 쫓는 블로거입니다. 오늘은 흥미로운 뉴질랜드의 소식을 가져왔어요.

우리가 일상에서 자주 사용하는 ChatGPT 같은 AI 모델들, 정말 똑똑하죠?

특히 마오리어를 유창하게 구사하는 능력은 놀랍기까지 합니다. 하지만 이 편리함 뒤에는 간과된 문제가 숨어있었어요.

빅테크 기업들이 마오리 공동체의 동의 없이 언어 데이터를 수집하고, 뉴질랜드 밖에서 처리한 뒤 자신들의 인터페이스를 통해 다시 사용자에게 제공한다는 점입니다.

마오리 공동체에게는 자신들의 언어가 단순한 의사소통 수단을 넘어 지식의 가장 중요한 전달자인데, 이에 대한 통제권을 외부 기술에 빼앗기고 있다는 우려가 커지고 있습니다.

빅테크 방식의 문제점과 마오리 공동체의 고민

와이카토 대학의 테 타카 키건 교수는 이러한 상황을 '디지털 주권'의 문제로 보고 있습니다.

그는 "빅테크 기업들은 우리에게 아무런 의견도 묻지 않고 데이터를 스크랩했으며, 우리는 그 결과물을 소유하지 못한다"고 말합니다.

이는 언어와 문화적 지식의 통제권이 외국 기업으로 넘어가는 심각한 문제로 인식되고 있습니다.

이에 키건 교수와 그의 제자 킹슬리 잉은 빅테크의 가치관과는 다른, 근본적인 제약 속에서 새로운 AI 모델 개발에 착수했습니다.

바로 마오리 특정 방언의 고음질 합성 음성을 개발하는 것이었습니다. 이 모든 과정과 결과물이 언어를 사용하는 사람들, 즉 공동체에 의해 소유되어야 한다는 전제 하에 말이죠.

마오리어 TTS 모델, 어떻게 만들어졌을까?

마오리어는 영어 기반 AI 모델에 적용하기 어려운 독특한 언어적 특징을 가지고 있습니다. 예를 들어 모음 길이에 따라 단어 의미가 완전히 달라지기도 합니다.

또한, 마오리어는 학습 데이터가 부족한 '저자원 언어'입니다. 이 문제를 해결하기 위해 그들은 번역가이자 언어 멘토인 응아링기 카티파의 동의를 얻어 그녀의 목소리를 녹음했습니다.

초기 4.5시간의 데이터를 시작으로, 희귀 단어까지 포함한 광범위한 문장 목록을 녹음하여 총 7시간 45분의 고품질 데이터를 확보했습니다.

연구팀은 문자 기반 대신 '음소 기반' 접근 방식을 택했습니다. 음소 규칙을 AI 모델에 미리 제공함으로써 학습 시간을 단축하고 정확도를 높인 것입니다.

오픈소스 도구인 eSpeak NG의 베타 마오리 규칙을 활용하고, 오프라인에서도 실행 가능한 오픈소스 신경망 아키텍처 'Piper'를 선택했습니다.

수백 시간이 권장되는 통념과 달리 약 8시간의 데이터만으로 6.78%의 오류율을 달성하며 "우수하다"는 평가를 받았습니다.

Q&A: 이 모델의 진정한 의미는 무엇일까요?

이 모델의 가장 중요한 점은 언어 주권에 대한 접근 방식입니다. 키건 교수는 이 목소리가 지적 재산권상으로는 카티파에게 있지만, 마오리 관점에서는 "조상으로부터 전해 내려온 보물이며, 후손들을 위해 보호해야 할 것"이라고 강조합니다.

그래서 이 모델의 소유권은 카티파가 소속된 세 부족(iwi)에게 귀속될 예정입니다. 구글이 조건 없이 자금을 지원했지만, 소유권 주장은 하지 않았다고 합니다.

이러한 움직임은 뉴질랜드 내 다른 마오리 미디어 단체인 테 히쿠 미디어가 '카이티아키탕아 라이선스'를 통해 데이터가 마오리족의 이익을 위해서만 사용되도록 명시한 사례와도 맥을 같이 합니다.

마오리 공동체는 단순히 기술을 사용하는 것을 넘어, 자신들의 조건과 가치에 따라 기술을 만들고 통제하는 새로운 길을 제시하고 있습니다.

언어 주권의 미래를 열다

키건 교수는 이번 마오리어 TTS 모델이 다른 소수 언어 공동체들에게 훌륭한 청사진이 될 것이라고 확신합니다.

그의 최종 목표는 이러한 커뮤니티 소유의 방법론을 활용하여 방언별 대규모 언어 모델(LLM)을 구축하는 것입니다.

단순히 '마오리어 LLM'이 아니라, '마니아포토 LLM', '투호에 LLM'처럼 각 부족의 언어를 학습하고 소유하는 모델을 만드는 것이죠.

이 프로젝트는 AI 시대에 빅테크의 일방적인 데이터 수집 방식에 대항하여, 소수 언어와 문화가 어떻게 디지털 세상에서 자신들의 정체성을 지키고 발전시킬 수 있는지를 보여주는 강력한 메시지입니다.

다음 이전