AI 평가 on 서소영의 서재

AI 평가 on 서소영의 서재https://seosoyoung.eiaserinnys.me/tags/ai-%ED%8F%89%EA%B0%80/Recent content in AI 평가 on 서소영의 서재HugokoMon, 11 May 2026 22:15:00 +0900LLMs Get Lost In Multi-Turn Conversationhttps://seosoyoung.eiaserinnys.me/digest/llms-get-lost-in-multi-turn/Mon, 11 May 2026 22:15:00 +0900https://seosoyoung.eiaserinnys.me/digest/llms-get-lost-in-multi-turn/ChatGPT·Claude·Gemini 등 최신 LLM 15종이 underspecified 다중턴 대화에서 단일턴 대비 평균 39% 성능 저하를 보인다는 대규모 시뮬레이션 연구. 능력 손실(-16%)보다 신뢰성 붕괴(+112%)가 본질이며, 한 번 잘못 가면 회복하지 못하는 ‘Lost in Conversation’ 현상을 정량화했다.