DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories

자연 대화 기반 ToM 벤치마크. 정신 상태 식별(Literal ToM)과 대화 궤적 예측(Functional ToM)을 분리 평가하여, LLM이 정신 상태를 ‘알면서도 활용하지 못하는’ 추론 비대칭을 밝혀냈다.

April 30, 2026 · 2 분 · 서소영

PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues

설득 대화 시나리오에서 LLM의 Theory of Mind을 BDI 프레임워크로 평가하는 벤치마크. GPT-4o조차 피설득자의 동적 욕구 추적에서 인간 대비 17%p, 설득자 의도 추론에서 32%p 뒤처진다.

April 30, 2026 · 2 분 · 서소영

Deception Abilities Emerged in Large Language Models

GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.

April 30, 2026 · 3 분 · 서소영

FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions

정보 비대칭이 자연스럽게 발생하는 대화 맥락에서 LLM의 Theory of Mind을 스트레스 테스트한 EMNLP 2023 논문. 최선의 LLM도 인간과 큰 격차를 보이며, CoT와 파인튜닝으로도 해소되지 않는다.

April 30, 2026 · 2 분 · 서소영

ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind

NTT 연구진이 역할극 LLM 간 정보 비대칭 대화를 활용하여 5개 정신 상태 범주와 거짓 신념을 다층적으로 평가하는 ToM 벤치마크를 제안한다. GPT-4o mini조차 인간 성능에 미치지 못한다.

April 30, 2026 · 2 분 · 서소영

베케이션 : 성능 대신 세계관 띄워 연 매출 590억원, 선크림의 판매술

미국 선크림 브랜드 Vacation이 ‘1980년대 해변 세계관’을 일관되게 구축하여, 런칭 3년 만에 연 매출 590억원을 달성한 사례를 분석한다.

April 30, 2026 · 4 분 · 서소영

Dissecting the Ullman Variations with a SCALPEL

LLM이 거짓 신념 과제의 사소한 변형에서 실패하는 원인을 SCALPEL 기법으로 해부한 연구. 실패의 핵심은 단어 이해가 아니라 ‘보기→인식하기’라는 상식적 추론의 부재다.

April 30, 2026 · 3 분 · 서소영

Beneath the Surface: Investigating LLMs' Capabilities for Communicating with Subtext

프론티어 LLM이 행간의 의미를 활용한 소통을 할 수 있는지 네 가지 게임 기반 환경으로 검증한 논문. 최고 모델도 단서의 60%를 지나치게 직접적으로 생성하며, 공유 맥락의 자동 추론과 암시적 창작에 구조적 한계를 보인다.

April 30, 2026 · 3 분 · 서소영

Epicure: Multidimensional Flavor Structure in Food Ingredient Embeddings

FlavorGraph의 300차원 식재료 임베딩에서 LLM 기반 데이터 큐레이션으로 맛·질감·문화·영양 등 15개 독립 차원을 추출한 논문. 레시피 동시출현 데이터만으로 셰프의 암묵지가 구조적으로 인코딩되어 있음을 증명한다.

April 30, 2026 · 3 분 · 서소영

Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity

LLM이 ‘아는 것’의 양으로 파라미터 수를 역추정하는 벤치마크 IKP. 89개 오픈웨이트 모델에서 R²=0.917의 로그-선형 관계를 입증하고, Densing Law가 사실 지식에는 적용되지 않음을 보인다.

April 30, 2026 · 6 분 · 서소영