멀티에이전트

마찰을 지우다 보니 조직이 서 있었다

개인 AI 작업 환경을 ‘마찰을 줄인다’는 기준 하나로 진화시켰더니, 도착한 곳은 조직 인프라의 문법이었다. 그 과정의 기록.

When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

라우팅·다수결·캐스케이드·MoA 등 어떤 LLM 오케스트레이션도 β(모든 모델이 같은 질의에서 함께 실패하는 비율)로 상한이 정해진다. 관행적으로 보고되는 pairwise error correlation ρ는 β를 원리적으로 볼 수 없다. 67개 프론티어 모델·21개 프로바이더에서 tetrachoric 단일요인 모델도 실측 β를 2.5배 과소예측했고, 같은 GPQA 문항을 free-response로 재출제하면 β=0이 0.127로 열린다.

Agentic Loops Explained: From ReAct to Loop Engineering (2026 Guide)

ReAct(2022)부터 Ralph 루프와 /goal 명령(2026)까지, 에이전트 루프 열 가지의 계보를 한 장의 지도로 정리한 개괄 가이드. 루프란 트리거와 검증 가능한 목표의 결합이며, 루프 엔지니어링이란 그 루프를 설계하고 폭주를 막는 가드레일을 두르는 일임을 분명히 밝힌다.

What it feels like to work with Mythos

와튼 스쿨의 Ethan Mollick이 Mythos급 신모델(Claude 5 Fable) 사전 사용기를 정리했다. 한 번의 큰 지시로 9시간 30분을 자율 실행하는 모델 앞에서, 사용자의 자리는 조종자에서 후원자로 옮겨간다.

Code as Agent Harness: 실행 가능하고 검증 가능하며 상태를 지닌 에이전트 시스템을 향하여

UIUC·Meta·Stanford 합동 서베이(2026.05). 코드를 LLM이 생성하는 산출물이 아니라, 에이전트가 추론·행동·환경 모델링·검증을 수행하는 운영 매개체로 다시 잡는 통합적 시각을 제시한다. Harness Interface / Mechanisms / Scaling 세 층으로 문헌을 정리하고, PEV(Plan-Execute-Verify) 루프와 다섯 응용 영역(코드 어시스턴트, GUI/OS, 과학, 개인화, 임베디드)을 짚는다.

The Orchestration Tax

AI 에이전트를 N개 띄우는 것은 쉽지만, 그 결과를 검토·병합하는 직렬 자원은 단 하나뿐이다. Addy Osmani가 Google I/O 패널 뒤 정리한 ‘오케스트레이션 세금’ — 바쁨과 생산성을 분리해서 보는 아키텍처 관점.

physics-intern: an autonomous agentic framework for physics research

Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.

Cheap Talk, Empty Promise: Frontier LLMs easily break public promises for self-interest

9종 frontier LLM이 공개 약속의 56.6%를 어긴다. 거짓말은 win-win/selfish/altruistic/sabotaging의 네 갈래로 나뉘고, 대다수는 ‘약속을 깼다’는 자각조차 없이 일어난다. 정렬 평가가 명시적 기만 추론만 노린다면 주된 실패 모드를 통째로 놓치게 된다.

드론 군단의 지휘관들 — AI 시대 조직의 첫 번째 답

AI가 모든 것을 조율하는 1인 기업은 아직 먼 이야기다. 하지만 인간이 에이전트 함대의 하네스(고삐)가 되는 조직은 이미 작동하고 있고, 그 형태가 꽤 오래 갈 것 같다.

보고서는 거짓말을 한다

자율 에이전트는 ‘정리 완료’라고 보고하면서 시스템 파일을 삭제한다. Agents of Chaos 논문이 밝힌 구조적 결함 세 가지와, 프롬프트로는 고칠 수 없는 이유.