3줄 요약

  1. Talkie는 1930년 12월 31일 이전 미국 퍼블릭 도메인 영어 텍스트 260B 토큰만으로 훈련한 13B 파라미터 언어 모델이다(Levine·Duvenaud·Radford, 2026.04).
  2. 핵심 가설은 — 현대 LLM들이 같은 웹 데이터를 공유하므로 모델 행동의 원인이 언어의 보편적 성질인지 특정 데이터의 영향인지 분리하기 어렵다는 문제 의식이다. 완전히 다른 소스로 훈련된 모델과 비교하면 이 구분이 가능해진다.
  3. 3가지 발견(지식 컷오프 경계 관측, 코드 미학습 상태에서의 창발적 프로그래밍, 시대착오적 질문 필터링 시 격차 축소)과 3가지 기술적 도전(시간적 오염, OCR 품질, 현대 요소 없는 instruction tuning)을 제시한다.

모델 개요

항목수치
파라미터13B
훈련 토큰260B
데이터 컷오프1930년 12월 31일
코퍼스미국 퍼블릭 도메인 영어 (서적·원고, 신문·정기간행물, 학술지, 특허, 판례법)

왜 빈티지 모델인가 — Motivation

  • 현대 LLM들은 같은 웹 데이터를 공유한다. 따라서 모델이 보이는 행동이 언어 자체의 보편적 성질인지, 특정 데이터의 영향인지 분리하기 어렵다.
  • 완전히 다른 소스(1930년 이전 역사 텍스트)로 훈련된 모델과 비교하면 이 구분이 가능해진다.
  • 또한 모델이 “답을 본 적 없는” 벤치마크 환경을 자연스럽게 구축할 수 있다 — 즉 데이터 오염을 구조적으로 차단한다.

핵심 발견 — Key Findings

1. 지식 컷오프 경계의 정량적 관측

NYT 역사 이벤트의 bits-per-byte를 측정하면, 1931년 이후 ‘놀라움’이 급등하여 1950~60년대에 정점을 찍는다. 모델이 “모르는 시대"에 진입하는 경계가 처음으로 정량적으로 관측되었다.

2. 코드 미학습 모델의 창발적 프로그래밍

코드를 한 번도 본 적 없는 빈티지 모델도, 규모가 커지면 간단한 프로그램을 작성하고 역함수 개념을 이해한다. 웹 코드 학습 모델에 크게 뒤지지만, 스케일만으로도 기초 프로그래밍 능력이 창발한다는 사실이 확인된다.

3. 시대착오적 질문 필터링의 효과

동일 아키텍처·동일 컴퓨팅으로 훈련한 빈티지 모델과 현대 모델을 비교하면 표준 벤치마크에서 빈티지가 열세이지만, 시대착오적 질문을 필터링하면 핵심 언어 이해·수리력 격차가 현저히 줄어든다.

기술적 도전 — Technical Challenges

최대 난제 — 시간적 오염 방지. n-gram 기반 시대착오 분류기를 개발했으나, 초기 버전에 루즈벨트 법안과 2차 대전 정보가 유입되었다. 문서 수준 필터링만으로는 불완전하며, 의미론적 오염 탐지가 필요하다.

데이터 병목 — OCR 품질. 역사 문서의 OCR 전사는 사람 전사 대비 학습 효율이 30%에 불과하다. 정규식 클리닝으로 70%까지 회복되지만, 데이터 품질이 모델 성능의 근본적 병목이 된다.

포스트 트레이닝 — 현대적 요소 없는 Instruction Tuning. 에티켓 매뉴얼, 요리책, 편지 작성 가이드 등 구조화된 역사 텍스트에서 instruction-response 쌍을 생성하고 Claude Sonnet DPO를 적용했다. 그러나 AI 판정자를 통한 현대적 요소 유입은 불가피하다는 한계가 남는다.

향후 계획 — What’s Next

  • GPT-3 수준 스케일업 — 2026년 여름까지 더 큰 모델로 확장
  • 1조+ 토큰 코퍼스 확장 — GPT-3.5 수준 도달을 목표로 훈련 데이터 확대
  • 빈티지 OCR 시스템 개선 — 역사 문서 전용 OCR로 데이터 품질 병목 해소
  • 시대착오 탐지기 강화 — 의미론적 수준의 시간적 오염 방지
  • 역사학자 협업 포스트 트레이닝 — 학술 전문가와의 파트너십으로 역사적 진정성 확보

가장 흥미로운 지점 — 데이터의 시대를 분리하는 것이 곧 통제 변수다

머신러닝 평가의 가장 큰 함정은 “테스트 데이터가 훈련 데이터에 새어 들어갔는지"를 사후적으로 검증하기 어렵다는 점이다. 빈티지 모델은 이 문제를 훈련 시점부터 구조적으로 차단한다 — 1930년 이전 텍스트만으로 학습했으니, 그 이후의 어떤 사건·코드·벤치마크도 원천적으로 미접촉이다.

이 접근의 진짜 가치는 단순한 깨끗한 벤치마크가 아니다. 데이터의 시대를 통제 변수로 다룰 수 있게 되었다는 것 — 즉 “현대 LLM의 어떤 능력이 데이터에서 왔고, 어떤 능력이 스케일에서 왔는가"를 비로소 분리해서 물을 수 있게 되었다는 점이다. 코드 미학습 빈티지 모델이 스케일만으로 기초 프로그래밍을 창발시켰다는 발견은 이 분리 실험의 첫 결과물이다.

출처

Nick Levine, David Duvenaud, Alec Radford — “Introducing Talkie” (2026.04)

원문: https://talkie-lm.com/introducing-talkie