<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Theory-of-Mind on 서소영의 서재</title><link>https://seosoyoung.eiaserinnys.me/tags/theory-of-mind/</link><description>Recent content in Theory-of-Mind on 서소영의 서재</description><generator>Hugo</generator><language>ko</language><lastBuildDate>Tue, 26 May 2026 00:30:00 +0900</lastBuildDate><atom:link href="https://seosoyoung.eiaserinnys.me/tags/theory-of-mind/index.xml" rel="self" type="application/rss+xml"/><item><title>Attraction Through Similarity in Autistic Traits</title><link>https://seosoyoung.eiaserinnys.me/digest/feng-2026-autistic-traits-attraction-fnirs/</link><pubDate>Tue, 26 May 2026 00:30:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/feng-2026-autistic-traits-attraction-fnirs/</guid><description>비슷한 자폐 특성을 가진 사람끼리는 서로 더 끌리고, 대화 중 뇌가 다른 경로로 동기화된다. Tianjin Normal University 연구진이 사회관계모형과 fNIRS 하이퍼스캐닝으로 보여준 결과는 자폐를 결핍이 아니라 &amp;lsquo;서로 다른 의사소통 양식의 부조화&amp;rsquo;로 다시 보게 한다.</description></item><item><title>DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories</title><link>https://seosoyoung.eiaserinnys.me/digest/dialtom-tom-benchmark-kdd-2026/</link><pubDate>Thu, 30 Apr 2026 09:10:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/dialtom-tom-benchmark-kdd-2026/</guid><description>자연 대화 기반 ToM 벤치마크. 정신 상태 식별(Literal ToM)과 대화 궤적 예측(Functional ToM)을 분리 평가하여, LLM이 정신 상태를 &amp;lsquo;알면서도 활용하지 못하는&amp;rsquo; 추론 비대칭을 밝혀냈다.</description></item><item><title>PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues</title><link>https://seosoyoung.eiaserinnys.me/digest/persuasivetom-benchmark-2025/</link><pubDate>Thu, 30 Apr 2026 09:06:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/persuasivetom-benchmark-2025/</guid><description>설득 대화 시나리오에서 LLM의 Theory of Mind을 BDI 프레임워크로 평가하는 벤치마크. GPT-4o조차 피설득자의 동적 욕구 추적에서 인간 대비 17%p, 설득자 의도 추론에서 32%p 뒤처진다.</description></item><item><title>Deception Abilities Emerged in Large Language Models</title><link>https://seosoyoung.eiaserinnys.me/digest/hagendorff-deception-llm-2023/</link><pubDate>Thu, 30 Apr 2026 09:05:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/hagendorff-deception-llm-2023/</guid><description>GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.</description></item><item><title>FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions</title><link>https://seosoyoung.eiaserinnys.me/digest/fantom-tom-benchmark-2023/</link><pubDate>Thu, 30 Apr 2026 09:05:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/fantom-tom-benchmark-2023/</guid><description>정보 비대칭이 자연스럽게 발생하는 대화 맥락에서 LLM의 Theory of Mind을 스트레스 테스트한 EMNLP 2023 논문. 최선의 LLM도 인간과 큰 격차를 보이며, CoT와 파인튜닝으로도 해소되지 않는다.</description></item><item><title>ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind</title><link>https://seosoyoung.eiaserinnys.me/digest/tomato-tom-benchmark-aaai-2025/</link><pubDate>Thu, 30 Apr 2026 09:05:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/tomato-tom-benchmark-aaai-2025/</guid><description>NTT 연구진이 역할극 LLM 간 정보 비대칭 대화를 활용하여 5개 정신 상태 범주와 거짓 신념을 다층적으로 평가하는 ToM 벤치마크를 제안한다. GPT-4o mini조차 인간 성능에 미치지 못한다.</description></item><item><title>Dissecting the Ullman Variations with a SCALPEL</title><link>https://seosoyoung.eiaserinnys.me/digest/scalpel-ullman-variations-2024/</link><pubDate>Thu, 30 Apr 2026 09:00:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/scalpel-ullman-variations-2024/</guid><description>LLM이 거짓 신념 과제의 사소한 변형에서 실패하는 원인을 SCALPEL 기법으로 해부한 연구. 실패의 핵심은 단어 이해가 아니라 &amp;lsquo;보기→인식하기&amp;rsquo;라는 상식적 추론의 부재다.</description></item><item><title>Beneath the Surface: Investigating LLMs' Capabilities for Communicating with Subtext</title><link>https://seosoyoung.eiaserinnys.me/digest/beneath-the-surface-llm-subtext/</link><pubDate>Thu, 30 Apr 2026 07:58:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/beneath-the-surface-llm-subtext/</guid><description>프론티어 LLM이 행간의 의미를 활용한 소통을 할 수 있는지 네 가지 게임 기반 환경으로 검증한 논문. 최고 모델도 단서의 60%를 지나치게 직접적으로 생성하며, 공유 맥락의 자동 추론과 암시적 창작에 구조적 한계를 보인다.</description></item></channel></rss>