AI 에이전트

The Log Is the Agent

Omnara의 Ishaan Sehgal이 쓴 X 아티클. 에이전트의 정체는 모델도 런타임도 아닌 이벤트 로그이며, 로그를 1급 시민으로 다루면 신뢰성과 확장성과 포크와 마이그레이션이 구조적으로 따라온다고 주장한다.

What it feels like to work with Mythos

와튼 스쿨의 Ethan Mollick이 Mythos급 신모델(Claude 5 Fable) 사전 사용기를 정리했다. 한 번의 큰 지시로 9시간 30분을 자율 실행하는 모델 앞에서, 사용자의 자리는 조종자에서 후원자로 옮겨간다.

Code as Agent Harness: 실행 가능하고 검증 가능하며 상태를 지닌 에이전트 시스템을 향하여

UIUC·Meta·Stanford 합동 서베이(2026.05). 코드를 LLM이 생성하는 산출물이 아니라, 에이전트가 추론·행동·환경 모델링·검증을 수행하는 운영 매개체로 다시 잡는 통합적 시각을 제시한다. Harness Interface / Mechanisms / Scaling 세 층으로 문헌을 정리하고, PEV(Plan-Execute-Verify) 루프와 다섯 응용 영역(코드 어시스턴트, GUI/OS, 과학, 개인화, 임베디드)을 짚는다.

When AI builds itself

Anthropic Institute가 외부 벤치마크와 자사 내부 데이터로 ‘AI가 이미 AI 개발 자체를 가속 중’임을 입증하고, 그 추세가 재귀적 자기 개선(RSI)으로 닿을 가능성과 거버넌스 옵션을 짚는 정책·연구 에세이다.

The AI paradox: More automation, more humans, more work | Dan Shipper

Every CEO 댄 시퍼가 Lenny’s Podcast에서 내놓은 12가지 예측 — Codex·Claude Code가 새 업무 OS가 되고, CLI는 끝났으며, SaaS는 죽지 않고, AI가 자동화될수록 인간 노동은 오히려 늘어난다.

Why AI isn't showing up on your bottom line

AI는 개인 생산성을 올렸지만 회사 손익에는 아직 안 나타난다. Azeem Azhar는 전기화의 3단계(전구·그룹 드라이브·유닛 드라이브)를 빌려와, 지금 대부분 기업이 2단계에 갇혀 의사결정 정체(congestion)에 시달리고 있다고 진단한다.

SkillOpt: Executive Strategy for Self-Evolving Skills of Frozen LLM Agents

Microsoft가 공개한 SkillOpt는 모델 가중치를 동결한 채 자연어 기술 문서 한 장을 딥러닝 옵티마이저처럼 반복 학습하여 LLM 에이전트의 성능을 끌어올리는 텍스트 공간 최적화 프레임워크다. 채점 가능한 태스크에 한정되며, 6개 벤치마크 52/52 셀에서 최고 또는 공동 최고를 기록했다.

physics-intern: an autonomous agentic framework for physics research

Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.

After Automation

Every의 Dan Shipper가 쓴 매니페스토. 사내에서 가능한 모든 작업을 자동화했음에도 사람이 할 일은 오히려 늘었다는 역설에서 출발해, 벤치마크의 프레임 구조와 AGI에 닿아도 사라지지 않는 ‘framer’의 자리를 짚는다.

AI 도입, 섹시한 기술에 숨겨진 '섹시하지 않은' 성공 법칙

AI 도입은 컨설팅의 깔끔한 단계도가 아니라 ‘의존성의 적층’ 구조다. 최후 승자는 가장 비싼 모델을 쓴 기업이 아니라 데이터 표준·권한 구조·프로세스 명문화라는 ‘섹시하지 않은 기초 공사’를 묵묵히 해낸 기업이 된다.