
When AI builds itself
Anthropic Institute가 외부 벤치마크와 자사 내부 데이터로 ‘AI가 이미 AI 개발 자체를 가속 중’임을 입증하고, 그 추세가 재귀적 자기 개선(RSI)으로 닿을 가능성과 거버넌스 옵션을 짚는 정책·연구 에세이다.

Anthropic Institute가 외부 벤치마크와 자사 내부 데이터로 ‘AI가 이미 AI 개발 자체를 가속 중’임을 입증하고, 그 추세가 재귀적 자기 개선(RSI)으로 닿을 가능성과 거버넌스 옵션을 짚는 정책·연구 에세이다.

Every CEO 댄 시퍼가 Lenny’s Podcast에서 내놓은 12가지 예측 — Codex·Claude Code가 새 업무 OS가 되고, CLI는 끝났으며, SaaS는 죽지 않고, AI가 자동화될수록 인간 노동은 오히려 늘어난다.

AI는 개인 생산성을 올렸지만 회사 손익에는 아직 안 나타난다. Azeem Azhar는 전기화의 3단계(전구·그룹 드라이브·유닛 드라이브)를 빌려와, 지금 대부분 기업이 2단계에 갇혀 의사결정 정체(congestion)에 시달리고 있다고 진단한다.

Microsoft가 공개한 SkillOpt는 모델 가중치를 동결한 채 자연어 기술 문서 한 장을 딥러닝 옵티마이저처럼 반복 학습하여 LLM 에이전트의 성능을 끌어올리는 텍스트 공간 최적화 프레임워크다. 채점 가능한 태스크에 한정되며, 6개 벤치마크 52/52 셀에서 최고 또는 공동 최고를 기록했다.

Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.

Every의 Dan Shipper가 쓴 매니페스토. 사내에서 가능한 모든 작업을 자동화했음에도 사람이 할 일은 오히려 늘었다는 역설에서 출발해, 벤치마크의 프레임 구조와 AGI에 닿아도 사라지지 않는 ‘framer’의 자리를 짚는다.

AI 도입은 컨설팅의 깔끔한 단계도가 아니라 ‘의존성의 적층’ 구조다. 최후 승자는 가장 비싼 모델을 쓴 기업이 아니라 데이터 표준·권한 구조·프로세스 명문화라는 ‘섹시하지 않은 기초 공사’를 묵묵히 해낸 기업이 된다.

Yohei Nakajima가 X에 올린 long-form 아티클의 요약. AI 에이전트 인프라가 모델의 무상태성을 보완하느라 같은 구조를 독립적으로 재발명 중이며, 진짜 문제는 메모리가 아니라 연속성(continuity)이라는 진단.
Claude Code·Cursor·Codex 등 MCP 클라이언트 전반에 영구 메모리를 공급하는 self-hosted 엔진. 12개 라이프사이클 훅으로 무수동 캡처하고, BM25+Vector+Graph 삼중 검색으로 LongMemEval-S R@5 95.2%를 달성한다.
Google이 Anthropic의 Agent Skills 패턴을 채택해 Google Cloud용 13개 스킬을 Apache-2.0으로 공개했다. skills.sh라는 패키지 매니저 레이어와 agentskills.io라는 벤더 중립 사이트가 함께 등장해, Skills가 한 벤더의 컨벤션에서 공용 표준으로 옮겨가는 신호로 읽힌다.