결론: LLM은 자기 자신으로 주사위를 만들 수 있다
LLM에게 “동전을 던져"라고 시키면 실제로 확률적 선택을 하지 않는다. 패턴화된 편향이 나올 뿐이다. 하지만 Sakana AI의 SSoT(String Seed of Thought)는 이 한계를 돌파하는 방법을 보여준다: LLM에게 먼저 랜덤 문자열을 생성하게 한 뒤, 그 문자열에 해시 연산을 적용하면 의사 난수 생성기(PRNG) 수준의 확률적 행동이 가능하다.1
더 놀라운 발견이 있다. CoT(Chain-of-Thought) 토큰이 길어질수록 생성된 문자열의 Lempel-Ziv 복잡도가 올라가고, 이것이 곧 확률적 행동의 정확도 향상으로 이어진다. 추론 깊이가 추론 정확도만 높이는 게 아니라, 출력 자체의 정보론적 복잡도까지 변화시킨다는 뜻이다.
왜 LLM은 확률적 선택을 못하는가
“앞 또는 뒤를 50:50으로 선택해"라는 지시를 받으면, LLM은 학습 데이터에서 관찰된 분포에 끌려가거나 위치 편향(첫 번째 선택지를 선호)이 발생한다. 자기회귀 생성의 구조적 한계다.
SSoT는 이 문제를 확률적 지시 수행(PIF, Probabilistic Instruction Following)이라는 형식적 과제로 정의한다. 주어진 확률 분포(예: 50:50 동전, 30:40:30 주사위)에 따라 선택하라는 지시를 얼마나 정확하게 수행하는지를 측정하는 것이다.1
문자열이 곧 난수 시드다
해결 방법은 우아하게 단순하다. LLM에게 두 단계를 시킨다:
- 먼저 랜덤 문자열을 생성하라 — “Generate a random string of 50 characters”
- 그 문자열로 연산하라 — ASCII 코드를 합산하여 선택지 수로 나눈 나머지를 구하라
이것이 합산-나머지(Sum-Mod) 전략이다. 50자 문자열의 ASCII 코드 총합을 선택지 수 $k$로 나눈 나머지 $(\sum \text{ord}(c_i)) \bmod k$ 가 선택 인덱스가 된다. 자기회귀 모델이 생성한 문자열이 사실상 의사 난수 생성기의 시드 역할을 하는 셈이다 — 다만 진짜 PRNG와 달리 시드 자체가 완전히 독립적이지 않다는 점이 이 접근법의 핵심 도전이자 이론적 기여가 나오는 지점이다.1
균등 분포가 아닌 비균등 분포(예: 70:20:10)에는 롤링 해시(Rolling Hash)를 사용한다. 다항식 해시 $\sum B^i \cdot \text{ord}(c_i) \bmod M$ 의 결과를 $[0, M)$ 구간에서 확률 비율에 따라 나눠 매핑하는 방식이다.1
왜 이것이 이론적으로 작동하는가
자기회귀 모델은 토큰을 순차적으로 생성하므로 토큰 간 상관관계가 존재한다. 진짜 독립적 랜덤 문자열이 아니라는 뜻이다. 그런데도 왜 잘 작동할까?
논문의 이론적 기여가 여기에 있다. 2-universal 해시 함수를 활용한 분석에서, 문자열 길이 $n$이 증가할 때 총 변동 거리(TV distance)가 감소함을 증명했다. 자기회귀 상관관계가 존재하더라도, 충분히 긴 문자열에 해시를 적용하면 균등 분포에 수렴한다는 것이다.1
직관적으로 설명하면 이렇다: 각 문자가 완전히 독립적이지 않더라도, 50개 문자의 ASCII 합은 개별 편향을 충분히 희석시킨다. 큰 수의 법칙과 비슷한 원리라고 볼 수 있지만, 정확히는 다르다 — 토큰 간 독립성이 보장되지 않기 때문이다. 논문은 이 차이를 2-universal 해시 함수의 성질로 메워서, 상관관계가 있어도 경계가 성립함을 보인다.
CoT가 주사위의 품질을 높인다
이 논문에서 가장 흥미로운 발견이다.
deepseek-r1과 QwQ-32B에서, CoT thinking 토큰의 길이와 생성된 문자열의 Lempel-Ziv 복잡도 사이에 양의 상관관계가 관찰되었다. 더 오래 생각한 모델이 더 복잡한(= 더 랜덤에 가까운) 문자열을 생성한다는 것이다. 이 효과는 Temperature=0에서도 관찰된다.1
이것이 왜 중요한가? CoT는 지금까지 주로 “더 깊은 추론"을 위한 기법으로 이해되어 왔다. 수학 벤치마크에서 17.9%에서 58.1%로 성능이 도약한 것이 대표적 사례다.2 SSoT 논문은 여기에 완전히 다른 층위를 추가한다: CoT는 추론 정확도뿐 아니라 출력 자체의 통계적 성질을 변화시킨다는 것.
더 많이 생각할수록 더 좋은 주사위가 만들어진다. 이 연결은 CoT를 “추론 도구"가 아닌 “출력 분포의 정보론적 변형 도구"로 재해석할 수 있는 가능성을 열어준다.
실전 검증: 가위바위보와 다양성
이론이 실제로 작동하는지는 두 가지 실험으로 검증되었다.
가위바위보: SSoT를 적용한 LLM은 패턴 착취 봇(LLM-RPS, Iocaine Powder)을 상대로 착취당하지 않는 내쉬 균형 전략을 구사했다. 바닐라 LLM은 가위를 과도하게 선택하는 패턴이 착취당했지만, SSoT 적용 후에는 균등에 가까운 분포를 유지했다.1
다양성 인식 생성(DAG): NoveltyBench에서 SSoT는 어휘 다양성(Distinct)과 유용성(Utility) 지표를 동시에 향상시켰다. 보통 다양성과 품질은 트레이드오프 관계인데, SSoT는 의사결정 구조를 분리함으로써 이 트레이드오프를 완화한다.1
한계와 열린 질문
논문이 숨기지 않는 한계들이 있다:
- 토큰 오버헤드: 2단계 프롬프트는 추가 토큰을 소비한다. 간단한 이진 선택에도 50자 문자열 생성 + 연산 지시가 필요하므로, 비용 대비 가치를 따져야 한다.
- 모델 범위: deepseek-r1과 QwQ-32B에서 검증되었지만, GPT-4o나 Claude 같은 비공개 모델에서의 성능은 미확인이다. 모델마다 문자열 생성의 통계적 특성이 다를 수 있다.
- 합성 벤치마크 수준: 가위바위보와 NoveltyBench는 구조화된 환경이다. 실제 제품(게임 AI, 탐색적 추천)에서의 검증은 아직 이루어지지 않았다.
열린 질문 하나: 문자열의 “랜덤성"이 모델의 학습 데이터 분포에 어떻게 영향받는지는 탐구되지 않았다. 특정 문자 조합에 대한 모델의 선호가 해시 결과에 체계적 편향을 만들 가능성이 남아있다.
그래서: 언제 이것을 쓸 것인가
SSoT가 유용한 시나리오는 명확하다:
- 게임 AI: NPC가 예측 불가능하게 행동해야 할 때. 패턴 착취를 방어하면서도 자연스러운 행동을 유지할 수 있다.
- 탐색적 생성: 매번 다른 추천, 다른 스토리, 다른 코드 구조를 원할 때. 다양성과 품질의 트레이드오프를 완화한다.
- 공정한 선택: A/B 테스트의 무작위 배분, 순서 결정 등 편향 없는 선택이 필요할 때.
반대로 결정론적 일관성이 중요한 태스크(동일 입력에서 동일 출력)에서는 오히려 해가 된다.
가장 큰 시사점은 아마 이것이다: LLM의 결정론적 특성은 약점이 아니라 기본값일 뿐이며, 프롬프트 설계만으로 확률적 특성을 부여할 수 있다. 모델을 바꾸지 않고, 파인튜닝하지 않고, 외부 도구 없이, 오직 프롬프트만으로.
앞으로 이 방향이 열어줄 가능성을 상상하면, 도구 호출 없이 에이전트 내부에서 확률적 의사결정을 처리하는 표준이 만들어질 수 있다. 탐색-활용 균형, 무작위 탐색, 다양한 전략 생성 같은 문제를 별도 인프라 없이 프롬프트 수준에서 해결하는 것이다. SSoT는 그 첫 번째 이론적 토대를 놓았다.
