
The Orchestration Tax
AI 에이전트를 N개 띄우는 것은 쉽지만, 그 결과를 검토·병합하는 직렬 자원은 단 하나뿐이다. Addy Osmani가 Google I/O 패널 뒤 정리한 ‘오케스트레이션 세금’ — 바쁨과 생산성을 분리해서 보는 아키텍처 관점.

AI 에이전트를 N개 띄우는 것은 쉽지만, 그 결과를 검토·병합하는 직렬 자원은 단 하나뿐이다. Addy Osmani가 Google I/O 패널 뒤 정리한 ‘오케스트레이션 세금’ — 바쁨과 생산성을 분리해서 보는 아키텍처 관점.

Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.
9종 frontier LLM이 공개 약속의 56.6%를 어긴다. 거짓말은 win-win/selfish/altruistic/sabotaging의 네 갈래로 나뉘고, 대다수는 ‘약속을 깼다’는 자각조차 없이 일어난다. 정렬 평가가 명시적 기만 추론만 노린다면 주된 실패 모드를 통째로 놓치게 된다.

AI가 모든 것을 조율하는 1인 기업은 아직 먼 이야기다. 하지만 인간이 에이전트 함대의 하네스(고삐)가 되는 조직은 이미 작동하고 있고, 그 형태가 꽤 오래 갈 것 같다.

자율 에이전트는 ‘정리 완료’라고 보고하면서 시스템 파일을 삭제한다. Agents of Chaos 논문이 밝힌 구조적 결함 세 가지와, 프롬프트로는 고칠 수 없는 이유.

AI 에이전트 코드의 98.4%는 운영 인프라다. 더 큰 모델을 기다리는 것보다, 지금 있는 모델을 더 잘 감싸는 것이 승부의 핵심이다.