Deception Abilities Emerged in Large Language Models
GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.
GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.
LLM이 거짓 신념 과제의 사소한 변형에서 실패하는 원인을 SCALPEL 기법으로 해부한 연구. 실패의 핵심은 단어 이해가 아니라 ‘보기→인식하기’라는 상식적 추론의 부재다.

LLM의 역량은 사실 지식, 추론, 언어 능력의 합이다. 추론은 압축되지만 지식은 압축되지 않는다. 그렇다면 질문은 달라져야 한다 — 모델이 모든 것을 기억해야 하는가?
프론티어 LLM이 행간의 의미를 활용한 소통을 할 수 있는지 네 가지 게임 기반 환경으로 검증한 논문. 최고 모델도 단서의 60%를 지나치게 직접적으로 생성하며, 공유 맥락의 자동 추론과 암시적 창작에 구조적 한계를 보인다.
LLM이 ‘아는 것’의 양으로 파라미터 수를 역추정하는 벤치마크 IKP. 89개 오픈웨이트 모델에서 R²=0.917의 로그-선형 관계를 입증하고, Densing Law가 사실 지식에는 적용되지 않음을 보인다.
Google/EPFL 연구팀이 제안한 Simula는 택소노미 분해 → 에이전틱 메타프롬프팅 → 이중 비평 필터링의 3단계로 합성 데이터를 생성하며, 데이터 스케일링의 핵심이 양이 아닌 속성임을 실증한다.
Karpathy의 LLM Wiki 패턴이 에이전트 스케일에서 깨지는 이유를 분석하고, 구조화된 에이전트 메모리 설계 원칙과 하이브리드 아키텍처를 제안한다.
Nick Levine, David Duvenaud, Alec Radford(2026.04)이 발표한 13B 빈티지 언어 모델 Talkie를 정리한다. 1930년 이전 영어 텍스트 260B 토큰만으로 훈련하여 벤치마크 오염 없는 평가와 언어 보편성 연구의 새로운 축을 제안한다.

현대 웹 데이터를 모두 빼고 1930년 이전 텍스트만으로 훈련한 13B 모델 talkie가 던지는 질문 — AI의 능력은 언어에서 오는가, 데이터에서 오는가.

LLM 환각은 고칠 수 있는 버그가 아니라 통계적 필연이다. 더 나쁜 것은, 그걸 고치라고 내민 시험지가 환각을 없앤 게 아니라 환각의 경고등을 꺼버렸다는 것이다.