3줄 요약
- 북경대 연구진이 에이전트 스킬 문서(SKILL.md 등)를 3계층 구조화 JSON으로 변환하는 SSL(Scheduling-Structural-Logical) 표현을 제안한다.
- 6,184개 스킬 코퍼스에서 스킬 디스커버리 MRR이 0.573에서 0.707로(+23%), 리스크 평가 macro F1이 0.744에서 0.787로 개선됐다.
- SSL은 원문을 대체하는 것이 아니라 레지스트리·라우터·정책 검사기가 참조할 수 있는 증거 인터페이스(evidence interface)로 기능해야 한다.
문제: 스킬 문서의 표현적 병목
에이전트 스킬은 호출 인터페이스, 실행 구조, 행위/자원 증거라는 의미론적으로 구별되는 세 가지 관심사를 갖는다. 그런데 SKILL.md 같은 텍스트 문서에서는 이것들이 뒤섞여 있어 자동 검색·검증·위험 평가가 어렵다. 저자들은 이를 표현적 병목(representational bottleneck)이라 부른다.
SSL: Schank의 고전 이론에서 3계층 도출
SSL의 설계는 Schank & Abelson의 고전 언어학 이론에서 영감을 받았다.
- Memory Organization Packets(MOP) → 스케줄링 계층: 스킬의 목표, 의도 시그니처, 입출력 계약, 의존성 등 호출 인터페이스. 전체 실행 그래프를 펼치지 않고도 리포지토리 규모의 후보 매칭이 가능하다.
- Script Theory → 구조 계층: 실행을 씬(scene) 시퀀스/그래프로 표현. PREPARE, ACQUIRE, REASON, ACT, VERIFY, RECOVER, FINALIZE 7종의 닫힌 어휘로 분류한다.
- Conceptual Dependency → 논리 계층: 원자적 행위를 READ, WRITE, CALL_TOOL 등 12종 행위 원시(act_type)로 기록하고, 각 스텝이 접근하는 자원을 MEMORY, LOCAL_FS, CREDENTIALS, NETWORK 등 8종 범위로 레이블링한다.
세 계층은 포함(containment) 관계와 진입 포인터로만 연결되며, 추상화 분리를 유지한다.
세 가지 설계 목표가 스키마를 관통한다.
- Compact: 기계 사용 가능한 증거만 보존하고 추측성 속성은 제외
- Typed: 제한된 어휘로 일관된 교차 스킬 비교 가능
- Grounded: 소스 증거를 요약할 뿐 숨겨진 행위를 추론하지 않음
정규화: LLM 4-패스 + 하드/소프트 검증
SKILL.md → SSL 변환은 LLM 기반 4-패스로 수행된다.
- 스킬 레코드 추출
- 문서를 씬으로 분해
- 씬을 소스 기반 로직 스텝으로 확장
- 그래프 구조 검증
검증은 하드 제약(JSON 파싱, 식별자 일관성, 열거형 유효성)과 소프트 검증(데이터 플로우 일관성)으로 분리된다. 미지원 필드는 추론하지 않고 빈값으로 남긴다.
스킬 디스커버리: 구조화된 필드 선택이 문서 길이보다 중요하다
6,184개 스킬 코퍼스, 403개 태스크 기반 쿼리(기능적·제약 기반·합성적·안전 지향·시나리오형 5종)로 실험했다. 임베딩 모델은 Qwen3-Embedding-0.6B, 랭킹은 FAISS.
| 입력 | MRR | NDCG@5 | Recall@10 |
|---|---|---|---|
| Description만 | 0.573 | 0.596 | 0.745 |
| Full SKILL.md | 0.601 | 0.626 | 0.798 |
| Desc + SSL-Rich | 0.707 | 0.727 | 0.896 |
핵심 발견: 간결한 구조화 필드가 전체 원문보다 높은 검색 성능을 보인다. 문서 길이가 아니라 어떤 필드를 선택하느냐가 결정적이다. 얕은 필드(이름+태그+목표)만으로도 강한 성능을 보인 것은 벤치마크에 더 자연스러운 쿼리가 필요함을 시사한다.
리스크 평가: SSL이 강한 차원과 원문이 강한 차원
500개 스킬에 대해 6개 리스크 차원(데이터 유출, 파괴적 행위, 권한 상승, 은밀 실행, 자원 남용, 자격 증명 접근)을 1에서 5까지 서열 척도로 평가했다. 골드 레이블은 Gemini-3.1, Claude-Sonnet-4.5, GPT-5 세 모델의 중앙값.
| 입력 | Macro F1 (>1) | MAE |
|---|---|---|
| Desc만 | 0.744 | — |
| Full SKILL.md | 0.774 | — |
| Full SKILL.md + SSL | 0.787 | 최저 |
차원별로 보면:
- SSL이 강한 곳: 데이터 유출, 파괴적 행위, 자격 증명 접근 — 논리 계층의 자원 범위 레이블이 직접적 증거를 제공
- 원문이 경쟁적인 곳: 권한 상승, 자원 남용 — 산문적 맥락 해석이 필요
엄격한 임계값(3 이상)에서는 Full SKILL.md가 SSL을 이겼다. 심각도 판단에는 구조화된 행위·자원 레이블만으로는 부족하고, 설계 의도·안전장치·실패 모드 같은 산문적 맥락이 필요하다.
논의: 증거 인터페이스이지 원문 대체가 아니다
저자들은 SSL의 위상을 분명히 한다.
SSL should be treated as a source-adjacent view, not as a substitute.
SSL은 예시, 설계 근거, 안전장치, 유지보수 안내 같은 산문 요소를 의도적으로 생략한다. 따라서 원문 대체가 아닌 소스 인접 뷰로 취급해야 한다.
스킬 생태계에는 “더 나은 프롬프트"가 아니라 레지스트리·라우터·정책 검사기가 참조할 수 있는 공유 매니페스트 계층이 필요하다는 것이 논문의 핵심 주장이다.
한계
- 정적 분석 한계: 런타임에 동적으로 페이로드를 다운로드하거나 조건부 자원 접근을 수행하는 스킬의 행위를 포착할 수 없다. 실행 추적(execution trace)이 필요.
- LLM 정규화의 신뢰도: 사실 누락, 과잉 정규화, 난독화된 스킬의 조잡한 분해 가능성.
- 평가 범위: 디스커버리와 리스크 평가만 다뤘고, 실제 에이전트가 실행 중 스킬을 선택·합성·적응하는 과정은 미검증.
- 벤치마크 쿼리: 자동 생성 쿼리여서 얕은 필드만으로도 강한 성능이 나온 면이 있다.
가장 흥미로운 지점
이 논문이 가장 날카롭게 짚는 지점은 “같은 스킬 문서에서도 다운스트림 태스크에 따라 다른 증거 계층이 필요하다”는 실증이다. 디스커버리에는 인터페이스/워크플로우 단서가, 리스크 평가에는 행위/자원 신호가 효과적이었고, 심각도 판단에는 다시 산문적 맥락이 필요했다. 만능 컨텍스트라는 접근이 비효율적임을 구체적인 숫자로 보여준 셈이다.
Schank의 1977년 이론이 2026년 에이전트 스킬 표현에 구조적 영감을 줬다는 것도 흥미롭다. 40년 전 인지과학의 분류 체계가 LLM 에이전트 시대에 다시 유효해진 것은, 지식 표현의 근본 문제가 기술 세대를 초월한다는 방증이다.
출처
Qiliang Liang, Hansi Wang, Zhong Liang, Yang Liu (Peking University). 2026년 4월 28일. 원문: https://arxiv.org/abs/2604.24026 데이터 및 코드: https://github.com/COOLPKU/SSL