안녕하세요, 여러분! 구글 SEO 전문가이자 여러분의 호기심을 긁어주는 인기 이슈 블로거, '인싸이트'입니다.
오늘은 정말 깜짝 놀랄 만한 소식을 들고 왔어요. 인공지능, 특히 LLM(거대 언어 모델)이 우리의 역사와 기록물 보존 방식까지 송두리째 바꿀 준비를 하고 있다는 소식, 알고 계셨나요?
수백 년 전 쓰인 고문서 속의 암호 같은 손글씨, 그걸 AI가 술술 읽어낸다니... 이거 영화 속 이야기가 아니더라고요.
답답했던 손글씨, AI가 싹~ 해결한다고?
우리의 지적 호기심을 자극하는 옛 기록물들.
벨 훅스 같은 유명인의 개인 일기만 해도, 그 빼곡한 필체를 읽어내려니 눈알이 빠질 것 같은 고통이라고 하죠.
필자는 결국 ChatGPT에 사진을 찍어 먹여봤다고 하는데, 이게 놀랍게도 꽤 잘 읽히더라는 겁니다.
과거 AI 연구자들은 1960년대부터 이 손글씨 해독 문제에 도전해왔지만, 실상은 수십 년간 고군분투의 연속이었죠.
얀 르쿤 같은 AI 대가가 부분적인 성공을 거두긴 했지만, 실제 아카이브의 방대한, 예측 불가능한 필체는 정말 다른 차원의 문제였으니까요.
그런데 말입니다. 이제 그 경계가 무너지고 있어요.
일반 목적의 AI 모델이 아직 완벽하진 않지만, 역사 속 묻혀있던 페이지들을 다시 우리 눈앞으로 가져다줄 만큼 똑똑해졌다는 소식입니다.
한때 고문서학 훈련이나 특수 소프트웨어, 아니면 며칠 밤낮을 새며 눈을 찡그려야 겨우 해독할 수 있던 자료들이 이제 몇 초 만에 번듯한 텍스트로 탈바꿈하고 있다는 거죠.
이건 단순히 시간을 절약하는 차원을 넘어, 과거에는 감히 상상도 못 했던 질문들을 던지고 답을 찾을 수 있게 해주는 혁명적인 변화나 다름없습니다.
LLM, 전문 소프트웨어까지 압도하다니! 비용, 속도 다 잡았네?
윌프리드 로리에 대학의 역사 교수 마크 험프리스의 이야기는 더 놀랍습니다.
그는 제1차 세계대전 참전 용사들의 연금 기록 1천만 페이지를 디지털화했지만, 색인도 없고 표준화도 안 되어 있어 사실상 무용지물에 가까웠다고 해요.
수백 명의 필기체가 뒤섞여 있어 특정 필체만 학습시키는 전문 모델은 통하지 않았죠.
하지만 GPT-4가 등장하면서 상황은 완전히 달라졌습니다. 험프리스 교수는 GPT-4에 손글씨를 입력하기 시작했고, 그 결과는 비록 거칠었지만 이전 어떤 도구보다 뛰어났다고 해요.
그는 동료들과 2년간 LLM의 성능을 체계적으로 테스트했고, 2025년 5월 학술지에 발표된 연구 결과는 정말 충격적입니다.
18세기, 19세기 영문 편지, 법률 기록 등 50개 문서에서 LLM이 기존의 전문 손글씨 해독 소프트웨어 '트랜스크리버스(Transkribus)'를 정확도, 속도, 비용 모든 면에서 압도해버린 거죠.
훈련되지 않은 문서에서 트랜스크리버스의 오류율이 8%에 달했는데, LLM 기반 접근 방식은 2% 미만으로 낮추면서 작업 속도는 50배 빠르게, 비용은 1/50 수준으로 줄였다는 사실!
이건 거의 게임 체인저 수준 아닌가요?
험프리스 교수는 리처드 서튼의 '비터 레슨' 이론을 언급하며, 컴퓨팅 파워를 활용한 범용적인 방법이 결국 특수 목적의 방법을 능가할 것이라는 예측이 바로 이 경우에 해당한다고 보고 있어요.
LLM이 워낙 방대한 데이터를 학습해서, 그 과정에서 손글씨 문서와 그 해독문 사이의 관계를 명시적으로 가르치지 않아도 스스로 흡수했다는 겁니다.
실질적인 파급 효과는 이미 시작되었죠. 리앤 래디 교수는 모피 무역 일지, 세례 기록 등 북미 전역에 흩어진 수천 개의 기록을 통해 원주민 여성의 이야기를 재구성하고 있는데, AI 덕분에 수십 년이 걸릴 작업을 훨씬 빠르게 해낼 수 있게 되었다고 해요.
이것이야말로 진정한 디지털 아카이브 혁명 아닐까요?
역사부터 경제까지! AI가 여는 새로운 연구의 문
이러한 변화는 여러 기관에 파장을 일으키고 있습니다.
노스캐롤라이나 대학교 채플힐 도서관에서는 노예 조상을 추적하는 연구자들을 위해 특수 컬렉션 자료에 AI 전사 기술을 시험 중이라고 해요.
특히 복잡한 표 구조 때문에 처리가 어려웠던 장부 자료까지 구글의 제미니(Gemini) 모델이 아주 훌륭하게 처리해내어 큰 도약이 되었다는 소식입니다.
대학뿐만이 아니죠. 필라델피아 연방준비은행은 LLM을 활용해 역사적 차량 등록 및 재산 증서에서 데이터를 추출하고 있습니다.
예전에는 너무 비싸고 시간이 많이 걸려 대규모로 처리하기 힘들었던 작업들이 이제 가능해지면서, 새로운 경제 연구 질문들을 던질 수 있게 된 거죠.
산타크루즈 캘리포니아 대학교의 역사가 벤자민 브린은 이 기술이 가장 큰 도움이 되는 집단은 다름 아닌 비전문가라고 지적합니다.
전문 역사가들은 이미 손글씨를 읽을 수 있으니 AI는 그들의 작업을 보완하는 역할이지만, 학부생이나 일반인들은 물론, 가족사를 추적하는 사람들에게는 이 기술이 세상을 바꾸는 도구가 된다는 겁니다.
심지어 손글씨를 넘어 기술 라틴어 같은 고대 문서까지 AI가 해독해줄 수 있다니, 우리가 접근할 수 있는 지식의 폭이 얼마나 넓어질지 기대되지 않나요?
얀 르쿤 교수는 이 문제를 "거의 해결된 문제"로 보고 있지만, 속도 개선을 넘어 "사람이 하던 것보다 더 신뢰할 수 있게" 해준다는 점에서 그 의미가 결코 작지 않다고 강조합니다.
험프리스 교수는 이런 신뢰도를 바탕으로 연구자들이 수백 페이지의 문서를 끌어다 놓으면 몇 분 만에 깔끔한 전사본을 받을 수 있는 비영리 도구, 'Archive Pearl(아카이브 펄)'을 개발 중이라고 합니다.
그의 목표는 단 하나, '민주화'. 정보의 문을 모두에게 활짝 여는 것이죠.
자주 묻는 질문 (Q&A)
Q1. AI가 고문서를 해독할 때 오역의 가능성은 없나요?
A1. 물론 100% 완벽하다고 보긴 어렵습니다. 하지만 마크 험프리스 교수의 연구에서 보듯, 특정 전문 소프트웨어보다 훨씬 낮은 오류율을 보이고 있어요. 지속적인 학습을 통해 정확도는 계속 향상될 겁니다.
Q2. 이런 손글씨 해독 도구, 일반인도 사용할 수 있나요?
A2. 네, 충분히 가능합니다! 험프리스 교수가 개발 중인 '아카이브 펄'처럼 대중화를 목표로 하는 도구들이 계속 등장할 예정이에요. 개인이 가족사를 추적하거나 특정 기록을 연구하는 데 큰 도움이 될 겁니다.
Q3. 고대 문서 외에 다른 유형의 자료에도 적용될 수 있을까요?
A3. 그럼요! 이미 노스캐롤라이나 대학에서는 복잡한 표 구조의 장부를, 필라델피아 연준에서는 차량 등록 및 재산 증서를 분석하는 데 활용하고 있습니다. LLM의 응용 범위는 정말 무궁무진하답니다.
마치며
오랫동안 굳게 닫혀 있던 역사의 문이 LLM 덕분에 활짝 열리고 있다는 소식, 어떠셨나요?
과거의 수많은 이야기들이 손글씨의 장벽에 가로막혀 우리에게 닿지 못했지만, 이제는 AI의 도움으로 그 목소리를 들을 수 있게 되었습니다.
학자들뿐만 아니라 평범한 우리 모두가 새로운 역사를 발견하고, 잊힌 이야기를 복원하며, 우리 자신의 뿌리를 깊이 있게 탐구할 수 있는 시대가 온 것이죠.
이것이야말로 기술이 인류의 지적 성장에 얼마나 큰 기여를 할 수 있는지 보여주는 강력한 증거가 아닐까 싶습니다.
앞으로 LLM과 디지털 아카이브의 발전이 또 어떤 놀라운 발견들을 가져다줄지, 정말 기대되네요!