False-Belief on 서소영의 서재

False-Belief on 서소영의 서재https://seosoyoung.eiaserinnys.me/tags/false-belief/Recent content in False-Belief on 서소영의 서재HugokoThu, 30 Apr 2026 09:05:00 +0900ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mindhttps://seosoyoung.eiaserinnys.me/digest/tomato-tom-benchmark-aaai-2025/Thu, 30 Apr 2026 09:05:00 +0900https://seosoyoung.eiaserinnys.me/digest/tomato-tom-benchmark-aaai-2025/NTT 연구진이 역할극 LLM 간 정보 비대칭 대화를 활용하여 5개 정신 상태 범주와 거짓 신념을 다층적으로 평가하는 ToM 벤치마크를 제안한다. GPT-4o mini조차 인간 성능에 미치지 못한다.