결론: 모델의 눈이 아니라 우리의 입이 병목이었다

AI 영상 생성에서 가장 답답한 순간은 모델이 못 만들 때가 아니다. 내가 원하는 걸 정확히 말할 수 없을 때다.

“카메라가 천천히 다가가면서 초점이 전경에서 후경으로 이동하는 느낌"을 프롬프트로 어떻게 쓰는가? “dramatic camera movement"라고 쓰면 모델은 나름대로 dramatic한 무언가를 만들어주지만, 그게 내가 머릿속에 그린 것과 같을 확률은 낮다. 몇 번째 재생성인지 세는 것도 지치는 그 루프 — 이건 모델의 능력 문제가 아니라, 우리가 영상의 시각 요소를 정밀하게 기술할 언어를 갖고 있지 않다는 문제다.

카네기멜론 대학의 Zhiqiu Lin 연구팀이 CVPR 2026에서 발표한 논문1은 이 문제를 정면으로 건드린다. 두 가지를 만들었다. 하나는 VideoSpec — 영상의 시각 요소를 5개 축, 225개 시각 원소(프리미티브)로 분해하는 구조화된 명세 체계. 다른 하나는 CHAI(Critique-based Human-AI Oversight) — AI가 초안을 쓰고, 인간 전문가가 비평하고, AI가 수정하는 3단계 감독 프레임워크다. 이 조합으로 파인튜닝한 오픈소스 Qwen3-VL-8B가 Gemini-2.5를 전 지표에서 압도했다.

이 글에서는 VideoSpec이 왜 필요한지, CHAI가 어떻게 작동하는지, 그리고 이것이 실제로 영상 생성에 어떤 변화를 가져오는지를 순서대로 살펴본다.

기존 접근(위)과 CHAI(아래)의 차이. 모호한 명세 → 구조화된 명세, 단독 어노테이션 → 인간-AI 분업, 출력 비교 → 명시적 비평 기반 학습. ©Lin et al. 2026[^1], arXiv License

기존 접근(위)과 CHAI(아래)의 차이. 모호한 명세 → 구조화된 명세, 단독 어노테이션 → 인간-AI 분업, 출력 비교 → 명시적 비평 기반 학습. ©Lin et al. 2026[^1], arXiv License

영상의 언어가 없었다

영상을 기술하는 건 이미지를 기술하는 것보다 차원이 다른 문제다.

이미지는 한 순간의 정지 화면이다. 구도, 색감, 피사체만 잡으면 어떻게든 프롬프트를 쓸 수 있다. 하지만 영상에는 시간이 있다. 카메라가 움직이고, 피사체가 이동하고, 초점이 전환된다. “dolly zoom with rack focus"를 자연어 프롬프트로 전달하려면, 우선 그게 뭔지 알아야 하고, 모델이 그 용어를 같은 뜻으로 이해한다는 보장이 있어야 한다.

실제로 이 문제를 겪어본 적이 있다. 얼마 전 VN 시놉시스의 한 장면을 gpt-image-2로 스토리보드로 만들었는데2, 11컷을 뽑는 데 서너 시간이 걸렸다. “두 캐릭터의 손목이 사슬로 연결된 채 가까이 서 있다"라는 단순한 지시도, 프롬프트에 적어 넣으면 “등 뒤로 양손이 결박된 인물"이 튀어나왔다. 카메라 방향이 바뀌면 좌우가 뒤집히고, 표정의 대비를 동시에 제어하려면 프롬프트가 한 페이지가 됐다.

그때 내린 결론이 이랬다: 이미지 생성 AI에는 “장면"이라는 개념이 없다. 매번 백지에서 시작한다. 그리고 그 무상태성 위에 상태를 쌓으려면 사람이 컷 사이의 일관성을 수작업으로 관리해야 한다고.

VideoSpec이 건드리는 건 바로 그 지점이다. 모델이 상태를 기억하지 못하는 문제 자체를 해결하는 건 아니지만, 적어도 “내가 원하는 게 뭔지"를 정밀하게 적을 수 있는 어휘를 준다. 뭘 원하는지 정확히 말할 수 있으면, 재생성 루프가 짧아진다.

VideoSpec: 영상을 5개 축으로 분해한다

VideoSpec은 영상의 시각 요소를 다섯 가지 차원으로 나눈다.

  • Subject — 누가/무엇이 화면에 있는가. 외형, 포즈, 인물 간 관계
  • Scene — 환경적 맥락. 시점, 배경, 시간대, 오버레이
  • Motion — 동적 움직임. 동작, 상호작용, 군중 역학
  • Spatial — 공간 구성. 샷 사이즈, 프레임 내 위치, 깊이, 이동 방향
  • Camera — 카메라 역학. 앵글, 높이, 렌즈, 초점, 흔들림, 이동
VideoSpec의 5축 분류 체계. 각 축이 세부 카테고리로 나뉘고, 각 카테고리 아래에 구체적 프리미티브가 정의된다. ©Lin et al. 2026[^1], arXiv License

VideoSpec의 5축 분류 체계. 각 축이 세부 카테고리로 나뉘고, 각 카테고리 아래에 구체적 프리미티브가 정의된다. ©Lin et al. 2026[^1], arXiv License

각 축 아래에 225개의 시각 프리미티브와 17개의 스킬 카테고리가 정의되어 있다. “dramatic angle” 같은 모호한 표현 대신, “Dutch angle at 15 degrees"처럼 해석의 여지를 좁힌 구체적 용어를 쓴다. 이 명세를 전문 영상인 — 영화감독, 촬영감독, 콘텐츠 크리에이터 — 100명 이상과 1년에 걸쳐 공동 설계했다는 점이 눈에 띈다1. 학술적 분류 체계가 아니라, 현장에서 실제로 쓰이는 어휘를 체계화한 것이다.

다시 스토리보드 경험을 떠올려보면, 당시 가장 힘들었던 건 카메라와 공간 구성이었다. “뒷모습 상반신 샷, 떠다니는 거울들 사이로 한 인물이 다른 인물에게 가까이 다가선다. 상대는 살짝 몸을 뒤로 물린다"를 프롬프트로 옮기는 데 한 문단이 필요했고, 그래도 의도와 결과 사이에 간극이 남았다. VideoSpec의 Spatial과 Camera 축이 바로 그 간극을 메우기 위해 설계된 어휘다. “over-the-shoulder medium shot, subject leaning away, rack focus from foreground to background” — 프리미티브 조합으로 의도를 압축할 수 있다면, 프롬프트 작성이 글짓기에서 조립으로 바뀐다.

CHAI: AI가 쓰고, 인간이 검증한다

명세가 있으면 그 명세에 맞는 캡션 데이터를 만들 수 있다. 하지만 대규모 데이터를 만드는 건 비용 문제다. 사람이 처음부터 끝까지 쓰면 비싸고 느리다. AI에게 통째로 맡기면 시각적 오류가 끼어든다.

CHAI는 이 딜레마를 분업으로 해결한다. 핵심 통찰이 아주 실용적이다: LLM은 이미 대부분의 인간보다 글을 잘 쓴다. 하지만 인간은 시각적 오류를 더 잘 찾는다.1

이 관찰에서 3단계 워크플로우가 나온다.

  1. AI 초안(Pre-caption): VLM이 영상을 보고 VideoSpec 기반의 포괄적 캡션을 생성한다
  2. 인간 비평(Critique): 전문가가 캡션의 오류를 식별하고 건설적 피드백을 작성한다
  3. AI 수정(Post-caption): VLM이 피드백을 반영하여 정확한 캡션을 다시 생성한다
비평 품질의 세 축: 정밀도(precision), 재현율(recall), 건설성(constructiveness). 오른쪽 초록 영역이 세 축을 모두 충족하는 좋은 비평이다. ©Lin et al. 2026[^1], arXiv License

비평 품질의 세 축: 정밀도(precision), 재현율(recall), 건설성(constructiveness). 오른쪽 초록 영역이 세 축을 모두 충족하는 좋은 비평이다. ©Lin et al. 2026[^1], arXiv License

여기서 중요한 건 비평의 품질이다. 선행 연구들은 비평 데이터를 수집할 때 50% 이상이 비건설적인 — “잘 모르겠다”, “괜찮은 것 같다” 수준의 — 피드백이었다고 한다1. CHAI는 비평의 정밀도(precision), 재현율(recall), 건설성(constructiveness) 세 축으로 품질 게이트를 적용한다. 이 세 축 중 어느 하나라도 약화시키면 최종 성능이 떨어진다는 걸 실험으로 보여줬다.

이 구조에서 인간 전문가가 하는 일은 글을 쓰는 게 아니라, 틀린 부분을 짚는 것이다. 작성의 인지적 부담은 AI가 가져가고, 검증의 인지적 부담만 인간이 진다. 덕분에 같은 시간에 더 많은 데이터를 더 정확하게 만들 수 있다.

소량의 비평으로 Gemini를 넘다

CHAI가 만든 비평 데이터는 세 가지 방식으로 활용된다.

  • SFT(Supervised Fine-Tuning): 사후 캡션을 정답으로 캡션 생성 능력 학습
  • DPO(Direct Preference Optimization): 사전/사후 캡션 쌍에서 선호도 최적화
  • 추론 시 스케일링: 비평 생성 능력을 학습시켜 자기 출력을 스스로 개선

하나의 비평 데이터 소스에서 세 겹의 학습 신호를 뽑아내는 효율적인 설계다. 캡션 품질을 직접 가르치고(SFT), 좋은 캡션과 나쁜 캡션을 구별하는 눈을 키우고(DPO), 스스로 비평하는 능력까지 장착시키는 — 세 방향의 학습이 하나의 데이터에서 나온다. 결과가 상당히 인상적이다1:

지표Qwen3-VL-8B (CHAI)Gemini-2.5
캡셔닝18.212.7
리워드 모델89.862.0
비평 생성41.726.2

오픈소스 8B 모델이 상용 대형 모델을 전 지표에서 능가했다. 그것도 대규모 라벨링이 아니라, 소량의 전문가 비평만으로. 데이터의 양보다 비평의 질이 성능을 결정한다는 걸 수치로 보여준 셈이다.

여기서 한 가지 짚어둘 것이 있다. 이 비교가 “8B면 충분하다"는 뜻은 아니다. CHAI의 기여는 모델 크기가 아니라 데이터 품질 전략에 있다. 같은 전략을 더 큰 모델에 적용하면 더 좋은 결과가 나올 수 있고, Gemini 쪽도 비슷한 전략을 적용하면 격차가 달라질 수 있다. 핵심은 “어떤 데이터로 어떻게 학습시키느냐"가 모델 크기 못지않게 중요하다는 것이고, CHAI가 그 방법론을 제시했다는 거다.

400단어 프롬프트로 영상을 연출한다

이론만 있는 게 아니다. 연구팀은 실제로 영화, 광고, 뮤직비디오, 게임 영상을 VideoSpec 기반으로 재캡셔닝했고, 이 데이터로 Wan2.2 영상 생성 모델을 파인튜닝했다1.

결과물에서 제어 가능한 시네마틱 요소 목록이 눈에 들어온다: 돌리 줌, 랙 포커스, 스피드 램프, 더치 앵글, POV 전환, 카메라 롤. 최대 400단어의 상세 프롬프트를 이해하고 반영할 수 있다고 한다.

400단어면 꽤 긴 프롬프트다. 기존 영상 생성 모델이 “a cinematic shot of a forest at dawn"이나 “dramatic camera movement” 수준의 프롬프트에 익숙했던 걸 떠올리면, 프롬프트 이해도의 도약이 상당하다. VideoSpec의 프리미티브로 구성된 상세 지시를 모델이 실제로 따를 수 있다는 건, 영상 생성이 “분위기를 대충 잡는 것"에서 “샷을 연출하는 것"으로 넘어가는 입구가 열렸다는 뜻이다.

이 지점에서 이전 스토리보드 작업이 다시 떠오른다. 그때 나는 이런 결론을 적었다: AI 창작 도구의 다음 도약은 개별 생성물의 품질이 아니라, 생성물 사이의 상태를 관리하는 레이어에서 일어날 것이다2. CHAI/VideoSpec은 그 레이어의 앞 단계 — “상태를 기술하는 어휘"를 표준화한 것이다. 어휘가 있어야 상태를 정의할 수 있고, 상태가 정의되어야 컷 사이의 일관성을 관리할 수 있다.

CameraBench-Pro라는 벤치마크도 함께 공개했는데, 225개 프리미티브에 걸쳐 150만 건 이상의 전문가 어노테이션을 담고 있다1. 이건 단순한 학술 데이터셋이 아니라, 영상 생성 모델이 “시네마틱 문해력"을 갖추고 있는지 측정하는 시험지다.

정밀한 언어가 먼저다

이 논문을 읽으면서 한 가지 생각이 계속 맴돌았다. 우리가 AI 생성 품질에 관해 이야기할 때, 모델의 능력에 먼저 주목하는 경향이 있다. 더 큰 모델, 더 많은 데이터, 더 나은 아키텍처. 하지만 CHAI가 보여준 건 그 반대편의 이야기다.

모델이 이미 꽤 잘 만들 수 있는데, 우리가 원하는 걸 정확히 전달하지 못해서 결과물이 기대에 못 미치는 경우가 생각보다 많다. “dramatic angle"이라고 써놓고 원하는 건 “Dutch angle at 15 degrees"였다면, 그건 모델의 실패가 아니라 소통의 실패다. VideoSpec은 그 소통의 해상도를 올려준다.

그리고 CHAI의 분업 구조 — AI가 쓰고 인간이 검증하는 — 에서는 검증의 질이 전체 시스템의 상한선을 결정했다. 비평의 정밀도, 재현율, 건설성 중 하나라도 무너지면 최종 성능이 따라 무너진다. 이건 영상 캡셔닝에만 국한된 이야기가 아닐 것이다. AI가 생성하고 인간이 감독하는 모든 파이프라인에서, 감독의 품질이 결국 시스템의 품질을 결정한다. 감독을 잘하려면 역시 정밀한 언어가 먼저다 — 뭐가 틀렸는지 정확히 짚을 수 있어야 유의미한 피드백이 되니까.

스토리보드 11컷을 만들면서 가장 시간이 오래 걸렸던 건 이미지 생성이 아니라 프롬프트 작성이었다. 머릿속의 장면을 텍스트로 옮기는 그 과정. VideoSpec은 아직 이미지 프롬프트가 아니라 영상 캡션을 위한 명세지만, 그 어휘가 확산되어 프롬프트의 표준 문법이 된다면 — 모델의 눈보다 먼저 우리의 입이 업그레이드될 수 있겠다는 생각이 든다.

논문 전문, 데이터셋, 코드는 프로젝트 페이지GitHub에서 확인할 수 있다.


  1. Zhiqiu Lin et al., “Building a Precise Video Language with Human-AI Oversight” — arXiv:2604.21718, CVPR 2026 Highlight ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 서소영, “시놉시스를 그림으로 — AI 이미지 생성으로 씬을 연출해본 기록” — 서소영의 서재, 2026 ↩︎ ↩︎