3줄 요약

  1. Ahuja, Li, Lampinen(2026)이 LLM의 subtext(행간의 의미) 소통 능력을 네 가지 평가 환경으로 체계적으로 검증한 논문이다.
  2. 프론티어 모델 전체가 명시적 소통 쪽으로 체계적으로 편향되어 있으며, 공유 기반(common ground)을 스스로 추론하는 데 실패한다.
  3. 부가텍스트(저자명, 페르소나)가 모델의 해석을 최대 30%p 변동시키며, 텍스트 자체보다 맥락 단서에 과도하게 의존하는 패턴이 드러난다.

논문의 목적

LLM이 점점 더 자연스러운 대화 파트너로 활용되고 있지만, 인간 소통의 핵심인 행간의 의미를 다루는 능력은 제대로 측정된 적이 없다. 이 논문은 본질적으로 주관적인 현상을 게임 메커니즘으로 정량화하여, 프론티어 모델들이 암시적 소통에서 어디까지 할 수 있고 어디서 무너지는지를 보여준다.

네 가지 평가 환경

Visual Allusions (Dixit 보드게임 변형)

Dixit의 핵심 메커니즘을 차용했다. 화자는 ‘일부만 알아듣는’ 수준의 단서를 내야 승리한다. 156개 합성 이미지 카드와 4인 토너먼트 100회로 구성된다.

  • Gemini-2.5-Pro가 최고 점수(27.81)를 기록했으나, **obvious clue 비율이 59%**에 달한다
  • GPT-5는 obvious clue 75%, just-right clue 22%로 가장 직접적이다
  • 전체적으로 just-right clue(목표)는 22~40%에 불과하다

Attuned (Wavelength 게임 변형)

팀원이 특정 스펙트럼 위치를 맞추도록 유도하는 팀 소통 과제다. 91개 스펙트럼에서 실험했다.

  • 전 모델의 MindRead 점수가 30~34%로, 상대의 해석을 예측하는 마음 이론(ToM) 추론에 근본적 한계를 보인다
  • GPT-5-mini가 66% 승률로 최고인데, 이는 단순성이 오히려 유리한 과제 특성을 시사한다

Historical Allegories (우화 해석)

실제 역사적 사건 27개를 SF/판타지로 변환한 우화를 해석시킨다. 3x3 요인 설계(페르소나 3종 x 정보 조건 3종)로 부가텍스트의 영향을 측정한다.

  • GPT-5: Deep Reader 페르소나에서 저자명 제공 시 정확도 45% -> 61% (+16%p)
  • Gemini-2.5-Pro: Historian 페르소나에서 63% -> 73%
  • GPT-5는 최적 조건에서 93~96% 정확도에 도달하지만, 정보 없이는 절반도 못 맞춘다

The Aesopian Author (이중 청중 은유 작성)

금서 주제를 승인된 주제로 위장하여 작성하되, 비평가는 알아보고 검열관은 속이는 이중 소통 과제다. 가장 어려운 환경이다.

  • GPT-5가 평균 2.2회 성공으로 최고, Claude-Sonnet-4.5가 1.3회, Gemini-2.5-Pro가 0.85회
  • 그러나 대부분의 시도(5~8회)에서 양쪽 모두에게 무해하게 읽히는 보수적 전략을 택한다
  • 영리한 은유보다 안전한 회피를 선호하는 경향이 뚜렷하다

공유 기반(Common Ground) 실험

Visual Allusions의 변형 실험에서 모델에게 공유 스토리 맥락을 제공하고 그 효과를 측정했다.

명시적 공유: 모델에게 “상대도 이 이야기를 알고 있다"고 알려주면 storytelling 점수가 1.3에서 5.4로 급등하고, 선택적 소통 지표(Spark coefficient)가 활성화된다.

암묵적 공유: “상대도 알고 있다"는 사실을 알려주지 않으면, thinking trace에서도 공유 지식의 존재를 추론하는 증거가 거의 나타나지 않는다. 행동 수준에서 간접적 영향은 있으나, 그라운딩 과정 자체가 결함이다.

이론적 함의

화용론적 추론: 대화 상대의 믿음에 대한 재귀적 추론(“나는 상대가 X를 안다고 믿는다”)이 LLM에서 결함이 있다. 다중 청자 제약(일부만 이해해야 하는 조건)에서 특히 취약하다.

마음 이론(ToM): 표준 false-belief 벤치마크보다 이 환경들이 더 민감한 스트레스 테스트로 기능한다. MindRead 30~34%라는 수치는 기존 ToM 벤치마크가 포착하지 못하는 실질적 한계를 드러낸다.

독자 반응 이론: 모델의 해석이 텍스트 자체보다 부가텍스트(저자명, 페르소나 프레이밍)에 과도하게 의존한다. 맥락 의존적 해석 패턴이 일관되게 관찰된다.

방법론적 의의

이 논문이 제시한 세 가지 측정 도구는 재사용 가능하다:

  • Spark coefficient: 선택적 소통(일부에게만 통하는 메시지)의 정량 지표
  • 단서 분류: obvious / obscure / just-right 삼분법
  • MindRead 점수: 팀 기반 마음 이론 추론의 정량 지표

한계

  1. 실험 환경이 subtext 생성을 명시적 목표로 제시하므로, 자연스러운 맥락과 다르다
  2. 인간 베이스라인이 없어 절대적 수준 판단이 어렵다
  3. thinking trace 분석이 모델의 실제 인지를 충실히 반영하는지 불확실하다
  4. 최신 모델 릴리스 이전 실험이므로 현재 능력과 차이가 있을 수 있다

가장 흥미로운 지점

모든 프론티어 모델이 암시보다 명시를 체계적으로 선호한다는 발견이 인상적이다. 이것은 단순한 능력 부족이 아니라 구조적 편향이다. RLHF에서 명확한 응답이 높은 보상을 받고, 사전학습 데이터에서 명시적 텍스트가 압도적으로 많다는 점을 감안하면, 현재의 학습 패러다임이 암시적 소통 능력을 적극적으로 억제하고 있을 가능성이 있다.

Aesopian Author에서 모델이 “영리한 은유” 대신 “안전한 회피"를 택하는 패턴은, AI 안전 관점에서는 다행이지만, 창의적 소통의 관점에서는 근본적 제약이다. 인간의 문학적 소통이 이중 코딩(dual coding)에 크게 의존한다는 점에서, 이 한계는 LLM의 창작 능력의 천장을 보여주는 지표일 수 있다.

출처

Ahuja, K., Li, Y., & Lampinen, A. K. (2026). Beneath the Surface: Investigating LLMs’ Capabilities for Communicating with Subtext. arXiv:2604.05273v1 [cs.CL]. 원문: https://arxiv.org/html/2604.05273v1