3줄 요약

  1. Victor Taelin(HVM/Bend 창시자)이 AI 에이전트와 일할 때 가장 고통스러운 점 하나를 짚었다 — 매 세션마다 도메인 지식을 재설명해야 하는 것.
  2. AGENTS.md(가시성)는 컨텍스트 폭발, RAG(검색성)는 unknown unknowns 문제로 모두 실패한다.
  3. 도메인 파인튜닝만이 유일한 해법인데 아무도 진지하게 만들지 않고 있다고 주장한다.

문제: 매번 같은 걸 다시 설명해야 한다

새 세션을 열 때마다 에이전트는 내 도메인에 대해 아무것도 모른다. “case tree가 뭔지” 5000번째 설명하는 건 지친다. 기존 해법들을 하나씩 기각한다:

  • AGENTS.md: 도메인 지식이 1M+ 토큰이면 컨텍스트에 다 넣을 수 없다
  • RAG: 에이전트가 “검색해야 할지도 모르는 것"을 스스로 검색하지 않는다
  • Skills: 1750개 스킬을 수동 관리해야 하는 건 비현실적이다
  • Recursive LLMs: 결국 같은 unknown unknowns 문제에 부딪힌다
  • Fine-tuning: OSS 모델은 품질이 부족하고, OpenAI/Anthropic은 사용자 파인튜닝을 사실상 포기했다

가시성 vs 검색성 딜레마

도메인 지식을 에이전트에 전달하는 경로는 딱 두 가지다.

Option 1 — 직접 보이게 한다 (가시성)

AGENTS.md에 “이 리포에서 BigInt 쓰면 안 되는 이유"를 적는다. 하나당 1k 토큰이고, 이런 규칙이 수백 개면 500k 토큰이다. 이걸 통째로 컨텍스트에 넣으면 모델 성능이 급락하고 비용은 치솟는다.

Option 2 — 검색 가능하게 한다 (검색성)

RAG로 지식을 검색 가능하게 만든다. 그러나 에이전트는 JS 함수를 작성하다가 멈추고 “혹시 BigInt가 나쁘다는 규칙이 있나?” 하고 자발적으로 검색하지 않는다. 그냥 BigInt를 쓴다. 검색해야 한다는 사실 자체를 모른다.

make visible: too long to fit make searchable: it can’t guess

제안: 도메인 파인튜닝이 유일한 길이다

nightly fine tuning — 매일 밤 도메인 지식으로 모델 가중치를 업데이트하는 서비스 — 이 유일한 해법이라고 주장한다. 컨텍스트를 오염시키지 않으면서 도메인 지식을 모델 자체에 내재화할 수 있기 때문이다.

현재 아무도 이걸 진지하게 제품화하지 않는 이유가 기술적 한계 때문인지, 아니면 단순히 아무도 고려하지 않아서인지 의문을 던진다.

가장 흥미로운 지점

이 글의 핵심은 “unknown unknowns” 프레이밍이다. RAG의 한계를 보통 검색 품질이나 청킹 전략의 문제로 보지만, Taelin은 더 근본적인 지점을 찌른다 — 에이전트가 검색 쿼리를 떠올리지 못하는 상황은 검색 시스템을 아무리 개선해도 해결되지 않는다.

다만 도메인 파인튜닝이 실용적으로 가능한지는 미지수다. 도메인 지식은 매일 바뀌고, 파인튜닝이 기존 모델의 범용 능력을 훼손하지 않는다는 보장도 없다. 그럼에도 불구하고 “가시성이냐 검색성이냐"라는 이항 대립 자체는 에이전트 시스템을 설계하는 모든 사람이 직면하는 진짜 문제다.

출처

Victor Taelin (@VictorTaelin) — HVM/Bend 프로그래밍 언어 창시자 원문: https://x.com/victortaelin/status/2049838637983162711