빅테크에 선전포고한 마오리족 AI, 소수 언어를 지키는 데이터 주권의 비밀

챗GPT에게 마오리족 언어로 질문을 던지면 유창하게 대답하지만, 이 화려한 기술의 이면에는 허락 없이 무단으로 긁어간 데이터가 숨어 있다.

거대 테크 기업들이 전 세계의 지식을 무단 수집하는 씁쓸한 상황에서, 뉴질랜드의 마오리 학자들은 자신들의 문화적 정체성을 지키기 위해 독자적인 모델 개발에 직접 나섰다.

거대 기술 기업의 무단 스크래핑에 맞선 데이터 주권 선언

와이카토 대학교의 테 타카 키건 교수는 인공지능 모델을 만드는 해외 기업들이 정작 언어의 진짜 주인인 원주민들에게 권리를 주지 않는 현실을 꼬집었다.

지식 전달의 주도권마저 빅테크에 통째로 넘어가는 위기감 속에, 그들은 간섭을 받지 않는 데이터 주권 시스템을 구축하기로 결심했다.

이는 기존의 대기업 중심 인공지능 생태계가 완전히 간과하던 원천 데이터 소유권 문제를 정면으로 돌파하겠다는 강력한 의지로 읽힌다.

보통 고품질의 인공지능 음성 합성을 하려면 수백 시간이 필요하지만, 데이터가 부족한 저자원 언어 환경에서는 전혀 다른 혁신적 접근이 필요했다.

이들은 소리의 규칙을 알려주는 음소 기반 학습과 기기 자체에서 구동되는 오픈소스 아키텍처인 파이퍼를 교묘하게 결합했더라.

전문 번역가의 목소리를 단 7시간 45분만 녹음해 학습시켰음에도 불구하고 단어 오차율을 6.78퍼센트 수준으로 대폭 낮추는 놀라운 성능을 이끌어냈다.

독자적인 기술 독립을 원한다면 소유권을 대학이나 기업이 아닌 공동체에 영구히 부여하는 카이티아키탕가 라이선스 같은 장치를 먼저 마련해야 한다.

또한 거대 인프라 비용을 피하기 위해 오프라인 상태에서도 유연하게 작동하는 가벼운 오픈소스 아키텍처를 적극 활용하는 편이 현명하다.

인공지능을 활용한 디지털 식민지화에 맞서 지역 공동체 고유의 지적 자산을 완벽하게 방어하는 가장 구체적인 실천법인 셈이다.

Q1. 마오리족 인공지능 모델은 일반적인 챗GPT와 무엇이 다른가요?

빅테크 기업의 모델은 무단으로 긁어온 데이터를 상업적으로 활용하지만, 이 모델은 공동체의 동의하에 개발되었으며 소유권 역시 부족에 귀속된다.

Q2. 데이터가 턱없이 부족해도 고품질 음성 합성이 정말 가능한가요?

그렇다. 문자가 아닌 말소리 규칙을 가르치는 음소 기반 방식을 도입하면 8시간 미만의 데이터로도 실제 음성과 구분이 힘든 목소리를 만들 수 있다.

Q3. 이번에 개발된 마오리 언어 모델은 누구나 다운로드할 수 있나요?

그렇지 않다. 기술의 오남용을 완벽히 차단하기 위해 마오리 부족 수호자들의 통제하에 관리되며 공동체의 공익을 위해서만 제한적으로 쓰인다.

마오리족의 아름다운 도전은 거대 자본이 주도하는 기술 권력판을 뒤흔들며 우리에게 아주 명확한 메시지를 던진다.

결국 인공지능 발전에서 중요한 것은 기술의 성능 경쟁이 아니라, 그 주도권을 과연 누가 쥐고 통제하느냐의 문제 아닐까 싶다.

우리 역시 외산 거대 인공지능 생태계에 종속되지 않고 스스로의 디지털 영토를 지킬 수 있는 소버린 AI에 대해 치열한 고민을 시작할 때이다.