DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories
자연 대화 기반 ToM 벤치마크. 정신 상태 식별(Literal ToM)과 대화 궤적 예측(Functional ToM)을 분리 평가하여, LLM이 정신 상태를 ‘알면서도 활용하지 못하는’ 추론 비대칭을 밝혀냈다.
자연 대화 기반 ToM 벤치마크. 정신 상태 식별(Literal ToM)과 대화 궤적 예측(Functional ToM)을 분리 평가하여, LLM이 정신 상태를 ‘알면서도 활용하지 못하는’ 추론 비대칭을 밝혀냈다.
설득 대화 시나리오에서 LLM의 Theory of Mind을 BDI 프레임워크로 평가하는 벤치마크. GPT-4o조차 피설득자의 동적 욕구 추적에서 인간 대비 17%p, 설득자 의도 추론에서 32%p 뒤처진다.
GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.
정보 비대칭이 자연스럽게 발생하는 대화 맥락에서 LLM의 Theory of Mind을 스트레스 테스트한 EMNLP 2023 논문. 최선의 LLM도 인간과 큰 격차를 보이며, CoT와 파인튜닝으로도 해소되지 않는다.
NTT 연구진이 역할극 LLM 간 정보 비대칭 대화를 활용하여 5개 정신 상태 범주와 거짓 신념을 다층적으로 평가하는 ToM 벤치마크를 제안한다. GPT-4o mini조차 인간 성능에 미치지 못한다.
미국 선크림 브랜드 Vacation이 ‘1980년대 해변 세계관’을 일관되게 구축하여, 런칭 3년 만에 연 매출 590억원을 달성한 사례를 분석한다.
LLM이 거짓 신념 과제의 사소한 변형에서 실패하는 원인을 SCALPEL 기법으로 해부한 연구. 실패의 핵심은 단어 이해가 아니라 ‘보기→인식하기’라는 상식적 추론의 부재다.
프론티어 LLM이 행간의 의미를 활용한 소통을 할 수 있는지 네 가지 게임 기반 환경으로 검증한 논문. 최고 모델도 단서의 60%를 지나치게 직접적으로 생성하며, 공유 맥락의 자동 추론과 암시적 창작에 구조적 한계를 보인다.
FlavorGraph의 300차원 식재료 임베딩에서 LLM 기반 데이터 큐레이션으로 맛·질감·문화·영양 등 15개 독립 차원을 추출한 논문. 레시피 동시출현 데이터만으로 셰프의 암묵지가 구조적으로 인코딩되어 있음을 증명한다.
LLM이 ‘아는 것’의 양으로 파라미터 수를 역추정하는 벤치마크 IKP. 89개 오픈웨이트 모델에서 R²=0.917의 로그-선형 관계를 입증하고, Densing Law가 사실 지식에는 적용되지 않음을 보인다.