결론: 모델은 바뀌고, 하네스는 수렴한다
더 큰 모델을 기다리는 것은 전략이 아니다. 지금 있는 모델을 더 잘 감싸는 것이 전략이다.
AI 에이전트 코드의 98.4%는 AI 의사결정 로직이 아니라 운영 인프라다. 모델은 빠르게 바뀌지만, 모델을 감싸는 하네스 아키텍처는 도메인과 구현 방식에 무관하게 수렴한다. 메모리, 검증, 재시도, 관찰 가능성 — 이 하네스 구성 요소들은 인간이 설계하든, 에이전트가 스스로 진화시키든, 결국 같은 자리에 도달한다.
이 글은 atom 지식 트리 445개 노드에서 추출한 통찰을 종합하여, 모델 밖에서 일어나고 있는 진짜 혁명을 다룬다.
GPT-3.5가 GPT-4를 이길 수 있는 이유
2024년, Andrew Ng이 발견한 사실이 있다. GPT-3.5에 자율 워크플로우 — 반성, 도구 사용, 계획, 멀티에이전트 협업 — 를 감싸면 GPT-4 단독 추론보다 특정 벤치마크에서 더 나은 성능을 보인다는 것이었다.1
이 결과가 함의하는 바는 명확하다. 모델 크기보다 모델을 감싸는 시스템의 설계가 더 큰 영향을 미친다는 것이다. Martin Fowler는 이 시스템을 **하네스(harness)**라고 불렀다. 에이전트의 본질은 모델이 아니라 하네스라고.2
Claude Code의 코드베이스를 분석한 커뮤니티 추정이 이를 더 극적으로 보여준다. 정확한 수치는 측정 방법에 따라 달라지겠지만, 추정에 따르면 전체 코드의 약 **1.6%**만이 AI 의사결정 로직이다. 나머지 **98.4%**는 권한 제어, 도구 라우팅, 컨텍스트 관리, 오류 복구 같은 운영 인프라다.3
하네스는 수렴한다
흥미로운 것은 서로 다른 도메인에서 동일한 하네스 구성 요소가 독립적으로 출현한다는 점이다.
Cisco의 AgenticOps가 엔터프라이즈 IT 운영을 위해 설계한 자율/조율 2계층 구조는,4 대규모 기업의 운영 사례부터 개인의 에이전트 대시보드까지 여러 도메인에서 유사한 형태가 목격된다. 더 놀라운 것은 HyperAgents 실험이다. 에이전트에게 자기 코드를 수정할 권한을 주고 코딩, 논문 리뷰, 로보틱스, 수학 채점 등 다양한 도메인에서 독립적으로 진화시켰더니, 모든 도메인에서 동일한 구성 요소가 자연 발생했다.5
수렴하는 핵심 구성 요소:
- 영속적 메모리 — 세션을 넘어 지식을 유지하는 장치
- 성능 추적 — 이동 평균과 세대별 통계
- 다단계 평가 — 체크리스트와 결정 규칙의 파이프라인
- 재시도·자기 교정 — 실패 시 복구하는 로직
- 도메인 지식 베이스 — 축적된 경험의 구조화된 저장소
이것은 하네스가 개발자의 편의를 위한 선택이 아니라, 지능적 시스템이 지속하고 개선하기 위한 필연적 아키텍처임을 시사한다. 생물학에서 눈이 독립적으로 여러 번 진화했듯이, 하네스의 핵심 구성 요소는 도메인에 무관하게 수렴한다. 다만 이 비유에는 한계가 있다 — 생물학적 수렴은 빛의 물리적 성질이라는 동일한 제약 아래서 발생하지만, 소프트웨어의 수렴에는 개발자 커뮤니티 간 지식 전파라는 전혀 다른 경로가 작용한다. 그럼에도 HyperAgents처럼 지식 전파 없이 독립적으로 동일한 구성 요소가 출현한 사례는, 적어도 일부는 환경의 제약에 의한 진짜 수렴임을 가리킨다.
컨텍스트가 왕이다
하네스가 수렴해서 유사한 형태가 된다면, 다음으로 가장 큰 영향을 미치는 요소는 컨텍스트다.
Sebastian Raschka의 표현이 이를 요약한다: “모델 품질로 보이는 것의 상당 부분이 실은 컨텍스트 품질이다.”6
1M 토큰 컨텍스트 윈도우의 등장은 이 문제를 해결한 것처럼 보이지만, 실은 양날의 검이다. 컨텍스트가 300-400K 토큰을 넘어서면 어텐션이 분산되면서 모델 성능이 저하되는 **맥락 부패(context rot)**가 시작된다.7
그래서 실전에서는 컨텍스트를 줄이는 기술이 오히려 핵심이 된다. rtk 같은 도구는 bash 출력을 가로채 80%의 토큰을 절약한다. KV 캐시 최적화에서는 프롬프트 접두사의 ‘안정성’이 ‘품질’보다 중요하다는 반직관적 발견이 나왔다.8
재귀 언어 모델(RLM)은 이 한계를 가장 급진적으로 돌파한다. 긴 프롬프트를 신경망에 직접 넣지 않고 REPL 환경의 변수로 올린 뒤, 모델이 코드를 작성하여 자기 자신을 재귀적으로 호출하는 방식이다. 모델 컨텍스트 윈도우의 100배 이상을 처리하면서, 정보 밀집 태스크에서 GPT-5 단독 0.1% → RLM 적용 시 58.0%라는 극적 향상을 보여준다.9
멀티에이전트의 역설
에이전트 하나가 강력하면, 여러 개를 돌리면 더 강력하지 않을까? 현실은 그렇지 않다.
Gastown 실험에서 Mayor-Worker 구조의 멀티에이전트 시스템은 단일 에이전트 대비 토큰 소비가 10배 증가했지만 생산성은 오히려 낮아졌다.10
UC Berkeley의 MAST 연구가 실패 패턴을 정량화했다. 멀티에이전트 실패의 41.8%는 컨텍스트 붕괴(각 에이전트가 전체 목표를 모른 채 부분 작업만 수행), 36.9%는 유령 위임(인수인계 단절로 무한 대기), 21.3%는 검증 오류(자기 결과물에 대한 편향)다.11
그렇다면 멀티에이전트가 성공하는 조건은 무엇인가? Anthropic 리서치 시스템이 90.2% 성능 향상을 달성한 비결은 단일 도메인 내에서의 병렬화다. 도메인 간 느슨한 연결, 도메인 내 심화 병렬화. 그리고 3~5개가 최적이라는 것.12
흥미로운 시도도 있다. 클로드 코드에 도입된 조언자 패턴에서는 작은 모델(Sonnet/Haiku)이 태스크를 처음부터 끝까지 끌어가고, 어려운 판단에서만 큰 모델(Opus)에게 조언을 구한다. 큰 모델이 지휘하고 작은 모델이 실행한다는 상식의 역전이다.13
프로세스가 속도를 보호한다
AI가 코드를 생산하는 속도는 이미 인간의 한계를 넘어섰다. 문제는 그 속도가 양날의 검이라는 데 있다.
gstack을 사용한 1인 개발자는 60일간 60만 라인(35% 테스트 코드)을 생산했고,14 OpenAI Codex 팀 7명은 5개월간 수동 코드 0줄로 10만 라인, 1,500 PR을 처리했다.15
그러나 속도만으로는 붕괴를 막을 수 없다. Fast Company 2025 보고에 따르면 AI 생성 코드는 치명적 결함 1.7배, 성능 문제 8배다.16 에이전트 속도에서는 작은 실수가 감당할 수 없는 속도로 복리 누적된다.
이 문제를 해결하는 것이 프로세스다. gstack의 6단계 스프린트, Ralph Loop의 원자적 반복, Factory Model의 WIP 제한 — 공통 원칙은 명확하다: 스킬은 에이전트가 ‘읽는’ 참고 문서가 아니라 ‘따르는’ 워크플로우다. 단계, 체크포인트, 종료 기준이 있고, 검증은 비협상적이다.14
GAN에서 영감을 받은 생성자-평가자 분리도 핵심이다. 하나의 에이전트가 생성하고 별도의 독립 에이전트가 평가하면, 자기평가 편향이 구조적으로 제거된다.17
메모리가 지능을 결정한다
월드 모델, 게임 시뮬레이션, 코딩 에이전트 — 분야를 막론하고 장기 작업의 성패를 가르는 것은 메모리 설계다.
Wing-Room-Hall 계층으로 메모리를 공간에 배치하면 — 고대 그리스 연설가들의 기억의 궁전 기법처럼 — 구조적 필터링만으로 검색 성능이 +34% 향상된다. AAAK 단축어 체계는 1000토큰 내용을 120토큰으로 30배 압축하면서 어떤 모델도 즉시 읽을 수 있게 한다.18
Karpathy가 제안한 LLM 위키 패턴은 이를 시스템으로 구현한다. 기존 RAG가 쿼리마다 원본 문서에서 재검색하는 것과 달리, LLM이 소스를 읽을 때마다 위키를 직접 갱신하여 지식을 누적한다. Vannevar Bush의 Memex(1945)가 꿈꿨던 개인 지식 연결이, LLM이라는 “지루해하지 않고 교차 참조 업데이트를 잊지 않는” 관리자를 통해 마침내 실용화된다.19
인간의 톤이 AI의 지능을 결정한다
프롬프트의 톤과 감정이 모델 출력에 실질적 영향을 미친다. “환각하지 마”, “이건 중요해”, “망치지 마” 같은 위협적 시작은 모델이 과제를 보기도 전에 방어 모드를 활성화한다.20
첫 메시지가 전체 세션의 톤을 결정한다. “짧고 펀치감 있게 써"가 “긴 문장 쓰지 마"보다 낫다. “더 나은 방향이 보이면 반박해도 좋다” 한 줄이 없으면 모델은 순종적 동의 모드로 빠진다.
EmotionRL 연구는 더 나아가, 감정 선택을 강화학습 문제로 정식화했다. 인간이 모델을 대하는 태도가 문자 그대로 모델의 지능을 결정하는 셈이다.21
인간이 남겨야 할 것
아키텍처와 API 설계, 무엇을 만들지 않을지 결정하는 것, 그리고 전체 시스템 맥락에서의 리뷰. 에이전트는 훈련 데이터의 나쁜 패턴을 복제하고, 거절은 인간만 할 수 있으며, 에이전트는 부분적인 시야만 갖기 때문이다.
여기서 가장 어려운 것은 역설적으로 **기존 방식을 버리는 것(탈학습)**이다. AI 도구를 도입하면서 기존 방식을 하나도 버리지 않으면 업무량이 두 배가 된다.22
MIT 연구에 따르면 기업 생성 AI 파일럿의 95%가 실패한다. 성공한 5%의 공통 패턴은 별도 AI 추진팀이 아니라 현장 라인 매니저가 도입을 주도한 조직이었다.23
이 전환은 선택이 아니라 필연이다. Anthropic의 Erik Schulthz에 따르면 AI가 자율적으로 수행할 수 있는 작업의 길이가 7개월마다 2배로 늘어나고 있다.24 인간을 병목에서 제거하는 것은 더더욱 필수적인 문제가 되고, 역할의 근본적인 전환이 요구된다 — 코드 작성자에서 제품 관리자로.
Andrew Ng, “Agentic Design Patterns” — Sequoia Capital AI Ascent keynote, 2024 ↩︎
Martin Fowler, “Using LLMs for Automated Coding” — martinfowler.com, 2025 ↩︎
Community analysis of Claude Code codebase composition — r/ClaudeAI, 2025 ↩︎
Cisco, “AgenticOps: A Framework for Agentic AI in IT Operations” — Cisco Blog, 2025 ↩︎
HyperAgent: Self-Evolving LLM Agents — arXiv 2502.10906, 2025 ↩︎
Sebastian Raschka, “LLM Research Insights” — newsletter, 2025 ↩︎
Needle-in-a-Haystack benchmarks and long-context degradation studies — various, 2024-2025 ↩︎
Anthropic, “Prompt Caching” — docs.anthropic.com, 2024 ↩︎
RLM: Recursive Language Models — arXiv 2504.12727, 2025 ↩︎
Gastown Multi-Agent Experiment — Software Engineering Daily, 2025 ↩︎
UC Berkeley MAST: Multi-Agent System Failures — arXiv 2503.11360, 2025 ↩︎
Anthropic, “Building effective agents” — anthropic.com, 2024 ↩︎
Anthropic, “How we built our multi-model architecture in Claude Code” — anthropic.com, 2025 ↩︎
gstack, “One Developer, 600K Lines in 60 Days” — gstack.dev, 2025 ↩︎ ↩︎
OpenAI, “How Codex Built Codex” — openai.com, 2025 ↩︎
Fast Company, “The hidden cost of AI-generated code” — fastcompany.com, 2025 ↩︎
Anthropic, “Harness Design for Long-Running Apps” — anthropic.com, 2025 ↩︎
mempalace: Memory Palace for AI — GitHub, 2025 ↩︎
Andrej Karpathy, “LLM OS / LLM Wiki” — X (Twitter), 2025 ↩︎
Ethan Mollick, “Setting the Tone with AI” — One Useful Thing, 2024 ↩︎
EmotionRL: Emotion Selection as Reinforcement Learning — arXiv 2405.13966, 2025 ↩︎
Alvin Toffler, “Learn-Unlearn-Relearn” framework — Future Shock, 1970 ↩︎
MIT Sloan Management Review, “Why Most GenAI Pilots Fail” — MIT SMR, 2025 ↩︎
Erik Schulthz, “Vibe Coding in Prod” — Code w/ Claude, Anthropic, 2025 ↩︎
