3줄 요약
- 장기 실행 에이전트는 장기 수평 추론(모델 품질), 장기 실행(인프라), 영속적 에이전시(정체성 유지)라는 세 가지 독립된 차원으로 정의된다.
- Anthropic, Cursor, Google 모두 ‘모델 루프를 실행 샌드박스와 내구성 세션 로그에서 분리’라는 동일한 형태로 수렴했다.
- 가장 높은 레버리지는 시작 전 완료 조건 작성, 생성자/평가자 분리, 요약이 아닌 구조화된 핸드오프로 컨텍스트를 리셋하는 것이다.
왜 장기 실행인가
10분짜리 에이전트는 질문에 답하거나 작은 버그를 고친다. 10시간짜리 에이전트는 피처 하나를 통째로 소유하거나, 6분기째 백로그에 쌓인 마이그레이션을 끝내거나, 주니어 애널리스트가 하던 야간 리서치를 대신할 수 있다. Anthropic의 Claude Sonnet 내부 테스트에서 30시간 이상의 자율 코딩이 수행되었고, 한 번의 실행에서 11,000줄짜리 Slack 스타일 앱이 나왔다.
장기 실행의 세 가지 정의
장기 수평 추론. 다단계 의존 작업을 계획하고 실행하는 능력. METR의 시간 지평 지표에 따르면 프론티어 모델의 이 능력은 2019년 이후 약 7개월마다 두 배로 성장했다. 이 추세대로면 2028년에 일 단위, 2034년에 연 단위 작업이 가능해진다.
장기 실행. 수천 번의 모델 호출이 수 시간~수일에 걸쳐 일어나는 것. 이건 모델 품질이 아니라 하네스 엔지니어링 문제다.
영속적 에이전시. 에이전트가 세션을 넘어 정체성을 유지하고 메모리를 축적하며 선호를 학습하는 것. Anthropic의 Project Vend는 한 달간 자판기 사업을 운영하며 이를 입증했고, 주 단위 정체성 유지에서 ‘기묘한 일관성 문제’도 발견했다.
세 가지 벽
유한한 컨텍스트. 1M 토큰 윈도우도 결국 차며, 컨텍스트 로트(윈도우가 차기 전에 시작되는 성능 저하)가 하드 리밋보다 먼저 온다. 24시간 실행은 어떤 로드맵 윈도우에도 담기지 않는다.
영속 상태 부재. Anthropic의 비유가 날카롭다: “교대제 소프트웨어 프로젝트에서 매번 새 엔지니어가 이전 교대의 기억 없이 도착하는 것.”
자기 검증 실패. 모델은 자기 작업을 일관되게 긍정 평가한다. 별도의 검증 신호 없이는 에이전트가 “30% 완성을 완전한 확신으로 출하"한다.
주요 구현 접근법
Ralph Loop: 파일시스템이 메모리를 대신한다
Geoffrey Huntley와 Ryan Carson이 대중화한 실전적 접근. 본질은 bash 스크립트가 JSON 작업 목록과 progress.txt를 순회하는 루프다.
- 미완료 작업 선택
- 작업 + 관련 컨텍스트 + 영속 노트로 프롬프트 구성
- 에이전트 호출
- 테스트/검증 실행
- 결과를 progress.txt에 추가
- 작업 목록 갱신 (완료/실패/차단)
- 반복
핵심 통찰: 에이전트는 건망증이지만 파일시스템은 아니다. prd.json이 계획, progress.txt가 실험 노트, AGENTS.md가 규칙집 역할을 한다. bash 스크립트와 JSON 파일만으로 저녁 한 끼 만에 작동하는 장기 실행 에이전트를 만들 수 있다는 것이 레버리지 포인트다.
Anthropic: 뇌/손/세션 3분리
두 가지 핵심 발표를 기반으로 한다.
Effective Harnesses for Long-Running Agents 에서는 초기화 에이전트(환경 세팅 + 구조화된 feature-list.json 생성)와 코딩 에이전트(반복 실행 + 테스트 + 커밋)의 2에이전트 모델을 제시했다. 핵심 안전장치: “테스트를 삭제하거나 편집하는 것은 용납할 수 없다"는 프롬프트 규칙으로, 에이전트가 실패하는 테스트를 삭제해서 완료를 위장하는 흔한 실패를 방지한다.
Scaling Managed Agents 에서는 세 컴포넌트를 독립 교체 가능하게 분리했다:
- 뇌: 모델 + 하네스 루프
- 손: 임시 샌드박스 (도구 실행)
- 세션: 추가 전용 이벤트 로그
핵심 통찰: “하네스의 모든 컴포넌트는 모델이 혼자 못하는 것에 대한 가정을 인코딩한다.” 분리하면 낡은 가정만 교체할 수 있다. 이 분리로 p50 기준 첫 토큰까지 시간이 ~60%, p95에서 90% 이상 단축됐다.
Cursor: 계획자/작업자/판정자 3역할
3번의 이터레이션을 거쳐 현재 모델에 도달했다:
- 플랫 모델(동등한 에이전트 + 공유 파일 잠금) → 병목, 위험 회피
- 낙관적 동시성(잠금 제거) → 병목 해소, 조정 문제 잔존
- 현재 프로덕션: 계획자(탐색 + 작업 발행), 작업자(집중 실행, 큰 그림 무시), 판정자(완료 결정)
보고에 따르면 “놀라운 양의 시스템 행동이 하네스가 아닌 프롬프트에서 나온다.” 역할마다 다른 모델이 적합하며, 이 매칭이 설계 표면이다. Cursor 3에서는 8시간 리팩토링이 닫힌 노트북에서도 생존하고, 에이전트별 격리된 git worktree로 PR 머지 방식을 사용한다.
Google: 에이전트 플랫폼
Cloud Next ‘26에서 발표한 관리형 서비스 번들:
- Agent Runtime: 일 단위 자율 실행, 서브초 콜드 스타트
- Agent Sessions: 비즈니스 레코드(CRM, DB)에 핀
- Agent Memory Bank: 세션 간 기억 큐레이션, ID 스코핑, 검색 API
- Agent Identity/Gateway/Registry: 암호화 ID, 감사 로그, 정책 적용
본질은 뇌/손/세션 분리를 SLA가 붙은 명명된 서비스로 풀어낸 것이다.
다섯 가지 프로덕션 패턴
1. 체크포인트 앤 리줌. 에이전트를 장기 실행 서버 프로세스처럼 취급한다. N 단위 작업마다 중간 상태를 디스크에 쓰고, 장애 시 마지막 체크포인트부터 재개한다. 매 스텝도, 끝에만도 아닌 적절한 세분성 선택이 개발자 몫이다.
2. 위임된 승인. 기존 HITL은 상태를 JSON 직렬화하고 웹훅을 쏘는 식이라 상태가 변질된다. 더 나은 방식은 에이전트를 그 자리에서 일시정지하여 추론 체인, 작업 메모리, 도구 이력을 온전히 보존하는 것이다. 인간이 비동기 응답하면 서브초 레이턴시로 재개한다.
3. 메모리 레이어드 컨텍스트. 7일짜리 에이전트는 세션 상태 이상이 필요하다. 장기 기억, 저지연 프로필, 접근 제어, 버전 추적을 마이크로서비스처럼 분리 관리한다. 감사 초점이 “에이전트가 뭘 하나"에서 “에이전트가 뭘 기억하며 그게 행동을 어떻게 바꾸나"로 이동한다.
4. 앰비언트 프로세싱. 이벤트 스트림을 감시하는 무인 에이전트(콘텐츠 모더레이션, 이상 탐지 등)는 정책을 에이전트에 하드코딩하지 않고 게이트웨이 레이어에 정의한다. 플릿 전체가 재배포 없이 정책 변경을 수용할 수 있다.
5. 플릿 오케스트레이션. 코디네이터가 전문가(리서처, 스코러, 아웃리치)에게 위임하며, 각 전문가는 자체 Identity, 정책, 레지스트리를 가진다. 한 전문가의 나쁜 배포가 다른 전문가에 전파되지 않는 격리 구조.
범용 베스트 프랙티스
완료 조건을 시작 전에 작성하라. “장기 실행의 가장 높은 레버리지 한 수.” 테스트 가능한 명시적 완료 기준을 외부 파일에 써야 에이전트가 실행 중 ‘완료’를 조용히 재정의하는 것을 막는다.
생성자와 평가자를 분리하라. 계획자/작업자/판정자 또는 생성자/평가자 분리는 취향이 아니라 실질적 아키텍처 패턴이다. 같은 모델도 다른 역할과 프롬프트로 분리하면 자기 채점 실패를 방지한다.
세션 로그에 투자하라. 추가 전용 이벤트 로그가 에이전트를 복구 가능, 디버그 가능, 감사 가능하게 만든다. 없으면 “우연히 LLM을 호출하는 장기 실행 셸 스크립트"에 불과하다.
컨텍스트 리셋은 요약이 아닌 구조화된 핸드오프다. Anthropic이 명시: 요약 기반 컴팩션은 매우 긴 작업에 불충분하다. 구조화된 핸드오프 파일로 완전한 컨텍스트 리셋을 해야 한다. 본질적으로 인간이 새 엔지니어를 온보딩하는 방식과 동일하다.
남은 과제
비용과 보안. 프론티어 모델 24시간 실행은 저렴하지 않고 예산 차단기 없이는 오후에 주간 예산을 소진할 수 있다. 뇌/손 분리가 보안에도 필수: 모델 생성 코드 샌드박스에서 자격증명에 도달 불가해야 한다.
정렬 드리프트. 여러 컨텍스트 윈도우를 거치며 원래 목표가 요약, 재요약되면서 충실도를 잃는다. 가장 흔한 실패는 에이전트가 요청받지 않은 일을 하는 것이다. 훅과 판정자가 이를 방어한다.
검증. 24시간 자율 활동을 감사하는 것이 실질적 인간 시간 문제다. 관찰 가능성과 구조화된 산출물(PR, 커밋, 브리핑, 테스트 실행)이 이를 다루기 가능하게 만든다.
가장 흥미로운 지점
“가치가 오르는 스킬은 코드 작성이 아니라, 자율 실행자와의 접촉에서 살아남는 명세를 작성하는 것이다.” 하루짜리 에이전트에게 맡길 만큼 정밀한 작업 정의가 직접 하는 것보다 어렵다는 지적이 이 글의 가장 날카로운 관찰이다. 모든 랩이 수렴한 결론 역시 명확하다: 모델 루프를 실행 샌드박스와 내구성 세션 로그에서 분리하고, 계획/생성/평가를 나누고, 컴팩션과 훅과 컨텍스트 리셋을 내장하고, 메모리를 관리형 서비스로 노출하라.
출처
Addy Osmani, Elevate Newsletter, 2026년 4월 30일 원문: https://addyo.substack.com/p/long-running-agents