LLM이 악필 필기체까지 읽어준다고? 꽁꽁 숨겨진 역사 기록의 비밀이 풀린다!

안녕하세요, 여러분! 뜨거운 이슈만 보면 그냥 못 넘어가는 이슈 블로거입니다.

오늘은 정말 흥미로운 소식을 가져왔어요. AI, 특히 거대 언어 모델(LLM)이 우리 상상 이상으로 진화하고 있다는 이야기랍니다.

혹시 예전 고문서나 할머니 할아버지의 옛날 일기장을 본 적 있으신가요? 글씨체가 너무 독특해서 한참을 들여다봐도 무슨 글씨인지 모를 때가 많죠?

그런데 이제, 이 AI가 수백 년 전의 난해한 필기체까지 척척 해독해준다는 소식입니다. 와우, 정말 놀랍지 않나요?

상상만 해도 가슴이 두근거리는 기술, 함께 파헤쳐 봅시다!

AI, 수십 년간 풀지 못한 숙제를 해결하다

사실 컴퓨터가 사람의 글씨를 읽는 문제는 AI 연구 초기부터 큰 숙제였다고 해요.

1960년대 연구자들은 곧 기계가 모든 필기체를 다 읽을 거라고 예측했지만, 현실은 녹록지 않았죠. 수십 년간 특정 분야에만 국한된 기술 발전이 전부였다는 게 슬픈 현실이었습니다.

딥러닝의 대가인 얀 르쿤 교수님도 1980년대에 우편번호 같은 정형화된 숫자 필기체 인식 연구로 큰 성과를 냈지만, 실제 고문서는 차원이 다른 문제였던 거죠.

하지만 지금은 상황이 완전히 달라졌습니다. 우리가 잘 아는 ChatGPT 같은 LLM들이 그 어려운 경계를 허물기 시작한 거예요.

더 이상 고문서 연구를 위해 서체학 훈련을 받거나, 비싼 맞춤형 소프트웨어를 쓸 필요가 없어졌다는 얘기입니다.

수주가 걸리던 작업을 몇 초 만에 처리할 수 있게 된 거죠. 이제껏 잠자고 있던 수많은 역사 기록들이 빛을 보게 되는 겁니다.

LLM, 필기체 해독의 게임 체인저로 등극

캐나다 윌프리드 로리에 대학의 마크 험프리스 교수는 10년 동안 제1차 세계대전 연금 기록 1천만 페이지를 디지털화하는 작업을 해왔대요.

하지만 수백 명의 다른 사람이 쓴 글씨들이라 색인이 없고, 일일이 손으로 찾아야 하는 악몽 같은 상황이었다고 합니다.

그러다 2023년 OpenAI의 GPT-4가 나오자, 그는 혹시나 하는 마음에 필기체 문서에 GPT-4를 투입해봤죠. 결과는 충격적이었답니다.

험프리스 교수 연구팀은 18~19세기 영어 편지, 법률 기록 등 50개의 문서를 가지고 LLM의 성능을 테스트했습니다.

그 결과, 놀랍게도 150개 이상의 주요 대학과 기록 보관소에서 사용하는 전문 필기체 인식 소프트웨어인 트랜스크리버스(Transkribus)를 정확도, 속도, 비용 모든 면에서 압도해 버렸어요!

트랜스크리버스 오류율이 8%인데 반해, LLM은 2% 미만으로 낮췄습니다. 작업 속도는 무려 50배나 빨랐고, 비용은 50분의 1 수준이라니, 실화인가요?

험프리스 교수는 AI 자동 전사 기술이 "일반적인 방법이 결국 전문적인 방법을 능가한다"는 AI 연구자 리처드 서튼의 이론을 그대로 보여주는 거라고 설명했습니다.

LLM이 워낙 방대한 데이터를 학습하다 보니, 그 과정에서 필기체 문서와 그 필사본 간의 관계를 스스로 터득했다는 거죠. 인류의 난제를 LLM이 풀어버린 셈입니다.

역사 기록의 새로운 지평이 열리다

이 기술은 이미 여러 분야에서 엄청난 파급 효과를 낳고 있습니다.

험프리스 교수의 공동 저자인 리안 레디 교수는 북미 원주민 여성들의 역사를 추적하기 위해 수많은 모피 교역 일지나 세례, 혼인 기록을 들여다봤대요.

대부분 남성 서기들이 쓴 기록이라 원주민 여성들의 이름은 음성학적으로 다르게 표기되거나, '누구의 아내' 정도로만 기록된 경우가 많았다고 합니다.

수천 장의 문서에서 몇 안 되는 단서를 찾아야 하는 이 작업은 "전통적인 방식으로는 여러 명의 평생 연구 기간이 걸릴 일"이었대요. 그런데 이제 AI 덕분에 역사 기록 연구의 스케일이 달라지게 된 거죠.

노스캐롤라이나 대학교 채플힐 도서관에서는 노예 조상을 추적하는 데 필요한 특별 소장 자료에 AI 전사 기술을 적용하고 있습니다. 특히 이전에는 처리하기 어려웠던 표 형식의 장부 해독에서 제미니(Gemini)가 놀라운 성능을 보였다는 후문입니다.

심지어 필라델피아 연방 준비 은행에서는 역사적인 차량 등록 기록이나 재산 등기부에서 데이터를 추출하는 데 LLM을 사용하고 있어요. 이전에는 비용과 시간이 너무 많이 들어 불가능했던 경제 연구 질문들이 가능해진 겁니다.

이 기술은 전문 역사가들보다 오히려 일반인들에게 더 큰 의미가 될 수 있다는 분석도 나옵니다.

대학생이나 가족사를 연구하는 비전문가들도 쉽게 고문서에 접근할 수 있게 되는 것이죠. 마치 역사 기록의 민주화가 이루어지는 느낌이랄까요?

심지어 라틴어처럼 고어체로 쓰인 전문 서적들까지 해독할 수 있게 될 거라는 기대도 커지고 있습니다. 정말 인류 지식의 보고가 활짝 열리는 순간인 거죠.

자주 묻는 질문 (Q&A)

Q1: LLM이 정말 완벽하게 필기체를 해독할까요?

A: 아직 100% 완벽하다고 보기는 어렵습니다. 하지만 전문 소프트웨어나 사람보다 훨씬 빠르고 정확하게 해독하며, 그 격차를 계속 줄이고 있다는 게 핵심입니다. 오류율이 2% 미만으로 떨어졌다는 건 정말 대단한 성과죠.

Q2: 이런 기술, 언제쯤 대중적으로 쓸 수 있을까요?

A: 이미 베타 버전으로 '아카이브 펄(Archive Pearl)'이라는 비영리 도구가 개발 중이라고 해요. 연구자들이 수백 페이지를 드래그앤드롭만으로 몇 분 만에 깨끗한 전사본을 얻을 수 있도록 하는 것이 목표라고 합니다. 머지않아 일반인들도 쉽게 고문서 연구를 할 수 있는 시대가 올 겁니다.

Q3: 개인도 LLM으로 필기체를 해독해 볼 수 있나요?

A: 네, 기본적인 LLM 모델(예: ChatGPT 유료 버전 등)에 이미지를 업로드하고 필기체 해독을 요청하면 어느 정도의 결과는 얻을 수 있습니다. 물론 전문적인 고문서 해독에는 특정 모델이나 미세 조정된 프롬프트가 필요하겠지만, 개인적인 용도로는 충분히 시도해볼 만할 거예요.

마치며

AI는 우리가 상상하는 것보다 훨씬 빠르게 세상을 바꾸고 있습니다. 난해한 필기체 해독이라는 오랜 숙제를 풀면서, 꽁꽁 숨겨져 있던 인류의 귀중한 기록들이 세상 밖으로 나올 준비를 하고 있는 거죠.

단순히 기술 발전을 넘어, 역사 연구의 접근성을 높이고 새로운 발견을 가능하게 한다는 점에서 정말이지 가슴 벅찬 소식이 아닐 수 없습니다.

앞으로 LLM이 또 어떤 영역에서 우리의 상식을 뛰어넘는 혁신을 가져올지, 저도 정말 궁금하고 기대가 됩니다!

다음에 더 흥미로운 소식으로 돌아올게요!