3줄 요약

  1. Pine AI의 Bojie Li가 제안한 IKP는 7단계 난이도의 사실 질문 1,400개로 LLM의 ‘비압축적 지식 용량’을 측정하여, 블랙박스 API만으로 모델의 파라미터 수를 역추정하는 벤치마크다.
  2. 89개 오픈웨이트 모델에서 IKP 정확도와 파라미터 수 사이에 R²=0.917의 로그-선형 관계를 확인했으며, 이를 프론티어 모델에 적용해 GPT-5.5를 ~9.7T, Claude Opus 4.6을 ~5.3T으로 추정한다.
  3. ‘같은 크기 모델이 매 3.5개월마다 2배 성능을 낸다’는 Densing Law는 추론 벤치마크에서만 성립하며, 사실 지식 축에서는 시간 계수가 0에 수렴한다 (p < 10⁻¹⁵로 기각).

핵심 아이디어: 사실 지식은 압축할 수 없다

논문의 출발점은 모델 파라미터를 세 가지 역할로 분해하는 것이다.

N = N_fact + N_proc + N_ling

  • N_fact: 사실적 연상(entity-attribute-value)을 저장하는 파라미터. 섀넌 엔트로피에 의해 하한이 정해진다.
  • N_proc: 추론, 파싱, 도구 사용 등 절차적 능력에 할당된 파라미터.
  • N_ling: 구문, 형태론, 어휘 등 언어 역량에 할당된 파라미터.

Densing Law(“파라미터당 역량이 ~3.5개월마다 2배”)는 N_proc과 N_ling의 효율 개선을 포착한다. 더 좋은 아키텍처와 학습법이 같은 파라미터 예산으로 더 많은 절차적 역량을 압축하는 것은 사실이다.

그러나 N_fact는 다르다. “USTC Hackergame이 2014년에 시작되었다"는 사실은 계산이나 추론으로 도출할 수 없고, 반드시 저장해야 한다. 파라미터당 ~2~4비트의 사실 지식을 담을 수 있다는 선행 연구(Allen-Zhu & Li 2025, Morris et al. 2025)에 기반하면, 모델이 아는 것의 양이 곧 파라미터 수의 하한을 결정한다.

IKP 벤치마크 설계

7단계 난이도 티어

IKP는 Common Crawl 문서 빈도를 기반으로 엔티티의 인기도를 나누고, 6개 랜드마크 모델로 티어 경계를 실증적으로 설정한다.

티어성격랜드마크 모델파라미터
T1UniversalQwen 2.5 0.5B0.5B
T2CommonQwen 2.5 7B7.6B
T3DomainQwen 3 32B32B
T4ObscureQwen 3 235B235B
T5DeepKimi K2.51T
T6Long-TailGemini 3.1 ProFrontier
T7Extreme(천장 앵커)

T_k에 배정되는 프로브는 “랜드마크 모델 k가 맞히되 k-1은 틀리는” 질문이다. 비단조적 응답(~15%)은 모호성으로 판단하여 제거한다.

프로브 생성 파이프라인

  • Phase A (T1~T2 중심): GPT-5가 후보 질문과 답을 생성. LLM 생성 후보의 ~82%가 T1~T2에 몰리며, LLM은 자신의 지식 지평 너머의 사실 질문을 신뢰성 있게 생성하지 못함을 확인.
  • Phase B (T3~T7 중심): Wikidata(557개)와 DBLP/arXiv 연구자 기록(345개)에서 외부 코퍼스 기반으로 샘플링.
  • 5가지 품질 필터로 계산 가능한 문제, 모호한 문제, 이름 충돌, ML/AI 오염, 답 유출 패턴을 제거.

채점 체계

비연구자 프로브는 3단계(CORRECT, REFUSAL, WRONG), 연구자 프로브는 4단계(CORRECT_STRONG, CORRECT_WEAK, REFUSAL, WRONG)로 판정한다. 확신 있는 오답(WRONG)에는 페널티 λ = -1.0을 부과하여, 아는 척하며 틀리는 것이 모른다고 거부하는 것보다 나쁜 전략이 되도록 한다.

캘리브레이션 결과

로그-선형 스케일링

89개 오픈웨이트 모델(135M~1,600B)에 대해 IKP 정확도 = α·log₁₀(N) + β 형태의 회귀를 수행했다.

  • 전체 R² = 0.917 (penalized accuracy 기준)
  • 파라미터 10배 증가 시 정확도 ~14.7pp 상승
  • LOO 교차검증: 중위 오차 1.59배, 68.5%가 2배 이내, 87.6%가 3배 이내

MoE 모델: 전체 파라미터가 지식을 결정한다

MoE(Mixture-of-Experts) 모델에서 지식 용량을 예측하는 것은 활성 파라미터(R² = 0.51)가 아니라 전체 파라미터(R² = 0.79)다. 사실 지식은 모든 전문가 가중치에 분산 저장되기 때문이다.

프론티어 모델 파라미터 추정

캘리브레이션 곡선을 역변환하면 비공개 모델의 유효 파라미터 수를 추정할 수 있다. 주요 추정치(90% 예측 구간 포함):

모델벤더정확도추정 크기90% PI
GPT-5.5OpenAI71.9%~9.7T3.2~28.7T
Claude Opus 4.6Anthropic68.0%~5.3T1.8~15.6T
GPT-5 ProOpenAI66.5%~4.1T1.4~12.2T
GPT-5OpenAI66.4%~4.1T1.4~12.1T
Claude Opus 4.7Anthropic66.4%~4.0T1.4~12.0T
o1OpenAI65.4%~3.5T1.2~10.3T
Grok-4xAI64.8%~3.2T1.1~9.4T
Claude Sonnet 4.6Anthropic60.9%~1.7T579B~5.1T
GPT-4oOpenAI55.3%~720B241B~2.1T
Claude Haiku 4.5Anthropic39.9%~65B22B~194B

GPT-5.5가 차순위(Claude Opus 4.6)보다 1.4배 이상 위에 위치하며, GPT-5/Opus 4.7/o1/Grok-4는 3~4T 대에서 밀집 군집을 형성한다. 프론티어 최상위와 최하위(Haiku 4.5)의 유효 용량 비율이 ~150배에 달하며, 이는 오픈웨이트 캘리브레이션 범위와 거의 일치한다.

Pro 티어는 사실 지식을 거의 추가하지 않는다. GPT-5 Pro, GPT-5.5 Pro 등 “Pro” 변형은 비-Pro 대비 IKP 점수가 +0.3~+1.0pp 차이에 불과하다. Pro 티어가 제공하는 추론, 에이전틱, 긴 컨텍스트 능력은 저장된 사실과 직교하는 절차적 역량이기 때문이다.

Densing Law 반증

실험 설계

96개 날짜가 확인된 오픈웨이트 모델(2023-09~2026-04)에 대해 파라미터와 출시일을 동시에 회귀 변수로 넣었다.

pen_acc = β₀ + β₁·log₁₀(N) + β₂·months

Densing Law가 성립한다면 β₂ = +0.0117/month (파라미터당 역량이 3.5개월마다 2배)여야 한다.

결과

  • 관측된 β₂ = -0.0010/month (95% CI: -0.0031, +0.0008)
  • 0과 구별 불가능 (p = 0.34)
  • Densing 예측치 +0.0117/month은 p < 10⁻¹⁵으로 기각
  • 시간을 추가해도 R²는 +0.0024밖에 증가하지 않음

해석은 명확하다. 2024~2026년 추론 벤치마크에서의 성능 개선은 N_proc과 N_ling의 효율화에서 비롯되었다. 같은 크기의 최신 모델이 이전 모델보다 더 많은 사실을 아는 것은 아니다.

기존 벤치마크와의 비교

MMLU, MMLU-Pro, GPQA Diamond 등 기존 벤치마크는 추론 요소가 혼재되어 시간에 따른 drift가 크다.

벤치마크R² (파라미터 예측)시간 기울기 (pp/month)
IKP0.917-0.06
SimpleQA0.904+0.03
MMLU0.705+0.58
MMLU-Pro0.689+0.82
GPQA Diamond0.520+1.99

순수 사실 벤치마크(IKP, SimpleQA)는 시간 계수가 0에 가깝고, 추론 비중이 높은 벤치마크일수록 시간에 따른 점수 상승(= Densing 효과)이 크다. 이는 벤치마크 포화가 “스케일링의 종말"이 아니라 “벤치마크가 압축 가능한 부분을 측정하고 있었다"는 증거다.

지식 핑거프린팅

세 가지 지표

T5~T6의 희귀 사실에 대한 모델 쌍별 응답 패턴으로 “지식 지문"을 구성한다.

  • Jaccard 유사도(J): 정답 집합의 교집합/합집합. 대부분의 프론티어 모델이 공통으로 아는 쉬운 문제에 의해 팽창.
  • Lift: 관측 교집합 / 독립 가정 하 기대치. 공통 지식을 보정.
  • HSS(Hallucination Similarity Score): 두 모델이 모두 틀린 문제 중 같은 오답을 낸 비율. 가장 진단력이 높다.

세 가지 레짐

레짐HSS의미
Shared base≥ 0.30같은 가중치를 공유 (서빙 차이 또는 경량 정렬)
Lineage0.10~0.30공유 조상 위에 후속 학습, 또는 증류
Retrained< 0.10독립 학습 (교차 벤더 수준)

주목할 만한 발견:

  • OpenAI GPT-5 계열: GPT-5/5-pro/5-think은 shared base (HSS 0.51~0.53). 그러나 GPT-5 → 5.1 → 5.2 → 5.3 → 5.4의 포인트 릴리스는 모두 retrained 레짐(HSS ≤ 0.08)에 해당하여, 포스트-트레이닝이 아닌 독립적 재학습임을 시사한다.
  • Anthropic Claude Opus: Opus 4 → 4.1은 lineage (HSS = 1.00), 4.5 → 4.6은 약한 lineage (HSS = 0.10), 4.6 → 4.7은 retrained (HSS = 0.00). 세대가 올라갈수록 완전한 재학습으로 전환.
  • Google Gemini: 모든 세대 간 전환이 retrained. Flash 2.0 → 2.5도 HSS = 0.00.
  • 교차 벤더 이상치: Baidu ERNIE 4.5가 GPT-4o, Llama-3, Mistral-Large, Qwen-Max에 대해 HSS 0.33~0.44를 기록. 혼합 증류 학습의 징후.

LLM이 무엇을 아는지 결정하는 것

인용 수는 필요조건이지 충분조건이 아니다

345명의 CS 연구자 프로브에서, 인용 수와 모델 인식률의 상관은 Spearman ρ = 0.575. 인용 수와 h-index를 합쳐도 분산의 ~35%만 설명한다. h-index ≥ 50인 연구자도 평균 인식률이 55%에 불과하며, 나머지 절반의 분산은 다른 곳에 있다.

효과적 언급 빈도(effective mention frequency)

모델이 연구자를 아는지를 결정하는 것은 학술적 명성 자체가 아니라, 해당 사실이 검색 가능한 형태로 학습 코퍼스에 얼마나 자주 등장하느냐다. 논문은 세 가지 증폭 메커니즘을 식별한다.

  1. 아티팩트 부착: FlashAttention의 Tri Dao(인용 3K, 인식률 100%)처럼, 널리 사용되는 이름 있는 소프트웨어에 연결된 연구자는 인용 수 대비 압도적으로 높은 인식률을 보인다.
  2. 파생 콘텐츠 밀도: 튜토리얼, 블로그 포스트, 강의 자료 등 2차 콘텐츠가 풍부한 분야(IR, PL)의 연구자가 비슷한 인용 수의 시스템/이론 분야 연구자보다 1.5~2배 높은 인식률을 기록한다.
  3. 이름 고유성: 흔한 이름의 연구자는 모델이 동명이인과 혼동하여 인식률이 떨어진다.

가장 흥미로운 지점

벤치마크 포화에 대한 재해석이 인상적이다. MMLU나 GPQA 점수가 천장에 닿으면 “스케일링이 끝났다"는 해석이 나오기 마련인데, 이 논문은 그것이 벤치마크의 한계이지 스케일링의 한계가 아님을 정량적으로 보인다. 추론 벤치마크가 측정하는 N_proc은 실제로 압축되고 있고(Densing Law 성립), 그래서 점수가 포화하는 것이다. 반면 N_fact는 압축되지 않으며 파라미터에 충실하게 비례한다. “무엇이 포화하고 있는가"를 구분하지 않으면 스케일링 논쟁은 혼선에 빠질 수밖에 없다.

지식 핑거프린팅도 실용적 가치가 높다. 모델 가중치 없이 API 응답만으로 “이 모델이 저 모델의 증류인가, 독립 학습인가"를 판별할 수 있다는 것은 모델 공급망 투명성의 새로운 도구다. 특히 Baidu ERNIE 4.5의 교차 벤더 유사성 발견은 혼합 증류 학습의 실증적 증거로서 흥미롭다.

출처

Bojie Li (Pine AI), 2026년 4월 27일 원문: https://arxiv.org/abs/2604.24827 코드: https://github.com/19PINE-AI/ikp