1930년 이전 데이터로 훈련된 ‘빈티지 LLM’의 정체

최근 인공지능 분야에서 흥미로운 시도가 등장했습니다.

바로 특정 시점 이전의 데이터로만 학습된 ‘빈티지 LLM(Vintage LLM)’입니다.

이는 단순히 오래된 기술을 재현하는 것을 넘어, 과거의 언어와 사고방식을 이해하고 미래를 예측하는 새로운 가능성을 제시합니다.

특히 ‘Talkie’라는 이름으로 알려진 이 모델은 1930년 이전의 데이터만을 학습하여, 마치 타임머신을 타고 과거로 돌아간 듯한 경험을 선사합니다.

‘빈티지 LLM’, 시대를 초월한 지능의 탄생

‘빈티지 LLM’이라는 용어는 AI 연구자 오와인 에반스(Owain Evans)가 제시한 개념입니다.

이는 특정 시점까지의 데이터를 학습하여 해당 시대의 관점을 모방하는 대규모 언어 모델을 의미합니다.

‘Talkie’는 1930년이라는 명확한 마감선을 설정함으로써, 해당 시점 이전의 방대한 텍스트 데이터를 기반으로 구축되었습니다.

이러한 접근 방식은 저작권 문제에서 자유롭다는 실질적인 이점도 제공합니다.

1930년 이후 공개된 저작물은 저작권 만료 시점이 도래하여 퍼블릭 도메인이 되지만, 1930년 이전 자료는 이러한 제약에서 비교적 자유롭습니다.

이는 ‘Talkie’가 더 폭넓은 범위의 고전 자료를 학습할 수 있도록 합니다.

‘Talkie’의 개발자들은 이 모델을 통해 과거 시점의 사람들과 소통하는 경험을 구현하고자 합니다.

예를 들어, 1700년대 사람들은 어떤 생각을 하고 어떤 언어를 사용했을지에 대한 질문에 답을 찾는 것입니다.

이는 단순한 정보 검색을 넘어, 특정 시대의 문화, 가치관, 사회적 맥락까지 이해하려는 시도입니다.

캘시퍼 컴퓨팅(Calcifer Computing)의 연구는 언어의 의미, 말투, 어휘가 시간에 따라 어떻게 변화하는지에 대한 LLM의 어려움을 지적하며, ‘Talkie’와 같은 모델의 필요성을 뒷받침합니다.

‘Talkie’는 개발 초기 단계에서 1930년 이후 발생한 사건들에 대한 ‘놀라움’ 정도를 주관적으로 평가하는 데 활용되기도 했습니다.

‘Talkie’의 가장 흥미로운 가능성은 특정 시점까지의 데이터로 학습된 모델이 그 이후의 사건을 얼마나 정확하게 예측할 수 있는지에 대한 질문입니다.

이는 마치 시스템의 초기 상태를 완벽하게 알면 미래 상태를 예측할 수 있다는 결정론(determinism)의 근본적인 질문과 맞닿아 있습니다.

물론 LLM이 1930년, 혹은 그 이전 특정 시점의 세상에 대한 모든 정보를 완벽하게 알 수는 없을 것입니다.

그러나 풍부한 역사적 지식과 당시의 사회 경제적 정보들을 학습한 모델이 “그 후에는 무슨 일이 일어날까?”라는 질문에 답하는 과정은 매우 흥미롭습니다.

이는 마치 1911년 데이터로 학습된 LLM이 상대성 이론을 발견할 수 있을지에 대한 질문과 유사한 맥락을 가집니다.

아직 명확한 답은 없지만, 과거의 정보를 바탕으로 미래를 예측하려는 시도는 AI의 예측 능력과 한계를 탐구하는 중요한 단서가 될 수 있습니다.

‘Talkie’와 같은 빈티지 LLM을 개발하는 데는 여러 가지 현실적인 어려움이 존재합니다.

가장 큰 난관 중 하나는 신뢰할 수 있는 학습 데이터의 부족입니다.

‘Talkie’는 물리적인 출처에서 스캔된 데이터를 기반으로 학습하기 때문에, 정확한 문자 인식이 매우 중요합니다.

또한, 1930년 이후의 자료가 학습 데이터에 유입되는 ‘오염(contamination)’ 문제도 해결해야 할 과제입니다.

이러한 문제들은 LLM의 성능과 신뢰성에 직접적인 영향을 미칩니다.

그럼에도 불구하고 ‘Talkie’ 프로젝트는 현재 LLM/AI 에이전트 프로젝트 분야에서 “잠재적으로 흥미롭고 해롭지 않은” 범주에 속한다고 평가받고 있습니다.

이는 AI 기술의 발전이 가져올 수 있는 위험보다는, 새로운 가능성과 인사이트를 탐구하는 데 초점을 맞추고 있다는 의미입니다.

‘Talkie’는 현재 또 다른 LLM이 던진 질문에 답하는 라이브 피드를 통해 그 능력을 시험받고 있습니다.

예를 들어, 1882년의 크리켓 경기를 묘사하는 내용은 흥미롭지만, 실제 역사적 사실과 다소 차이가 있는 것으로 나타났습니다.

이는 학습 데이터의 정확성과 모델의 해석 능력에 대한 추가적인 연구가 필요함을 시사합니다.

그럼에도 불구하고 ‘Talkie’가 만들어내는 묘사들은 생생하고 설득력이 있어, 향후 역사적 사건에 대한 새로운 관점을 제시할 잠재력을 가지고 있습니다.

만약 ‘Talkie’가 제2차 세계대전과 같은 거대한 사건들을 예측하는 데 성공한다면, 이는 AI의 예측 능력이 한 단계 발전했음을 보여주는 중요한 이정표가 될 것입니다.

또한, 윈필드 크롬웰 영국 총리나 루돌프 샤이세 독일 독재자와 같은 역사적 인물들의 연설 톤이나 말투를 얼마나 잘 재현할 수 있을지에 대한 기대도 존재합니다.

‘Talkie’ 프로젝트는 과거 데이터의 힘을 빌려 미래를 탐구하는 새로운 길을 열고 있습니다.

출처: https://gizmodo.com/talkie-is-a-vintage-llm-trained-on-pre-1930-data-to-help-facilitate-time-travel-2000751758