3줄 요약
- Meta AI + HKU + Waterloo 공동 연구. 통합 멀티모달 모델(UMM)에서 VAE와 표현 인코더를 모두 제거하고, 단순 패치 임베딩 레이어만으로 픽셀 공간에서 이해·생성을 동시에 수행하는 Tuna-2를 제안한다.
- 핵심 발견: 충분한 프리트레이닝 데이터가 주어지면, 인코더 프리 설계가 인코더 기반 설계를 이해 벤치마크에서 역전한다. 특히 세밀한 시각 인지(V*, CountBench, VisuLogic)에서 격차가 두드러진다.
- 사전훈련 비전 인코더는 초기 수렴을 앞당기는 촉진제이지 성능의 상한이 아니며, end-to-end 픽셀 학습이 더 강한 시각 표현으로 가는 확장 가능한 경로라고 결론짓는다.
왜 인코더를 빼려 하는가
기존 통합 멀티모달 모델(UMM)은 이해를 위한 표현 인코더(SigLIP, CLIP 등)와 생성을 위한 VAE 인코더를 별도로 사용한다. 두 인코더가 각기 다른 시각 표현을 만들기 때문에, 이해와 생성 사이에 정렬 불일치(misalignment)가 발생한다. 이를 해결하려 통합 인코더를 쓰는 시도가 이어졌지만, Tuna-2는 더 근본적인 질문을 던진다.
인코더 자체를 없앨 수는 없는가?
아키텍처 진화: 세 단계의 단순화
| 모델 | VAE | 표현 인코더 | 시각 입력 |
|---|---|---|---|
| Tuna | O | O | 잠재 공간 |
| Tuna-R | X | O (SigLIP 2) | 픽셀 공간 |
| Tuna-2 | X | X | 픽셀 공간 |
Tuna-2의 최종 아키텍처는 놀랍도록 단순하다. 이미지를 패치로 나누고, 단순 패치 임베딩 레이어로 토큰화한 뒤, 텍스트 토큰과 함께 단일 트랜스포머에 넣는다. 비전-언어 모델링의 전체 부담을 LLM 디코더 하나가 진다.
핵심 기법
픽셀 공간 flow matching
VAE를 제거하면 이미지 생성도 잠재 공간이 아닌 픽셀 공간에서 수행해야 한다. Tuna-2는 rectified flow의 선형 스케줄로 픽셀 공간에서 직접 노이즈 샘플을 구성하고, x-prediction + v-loss 패러다임으로 깨끗한 이미지를 예측한다. JiT(Li and He, 2025)에서 차용한 이 접근은 잠재 공간 디퓨전 없이도 고품질 생성이 가능함을 보인다.
마스킹 기반 시각 특징 학습
픽셀 공간은 잠재 공간보다 차원이 높아 표면적 단서(superficial shortcuts)에 의존하기 쉽다. 이를 방지하기 위해 훈련 중 이미지 패치를 무작위로 마스킹한다. 이 단일 메커니즘이 두 과제에 동시에 작용한다.
- 생성 시: 부분 관측에서 전체를 복원해야 하므로 더 어려운 디노이징 문제가 된다
- 이해 시: 불완전한 시각 입력으로 추론을 강제하는 정규화가 된다
2단계 훈련
- 프리트레이닝: Qwen2.5-7B-Instruct 백본, 550M 이미지-텍스트 쌍 (캡셔닝 70% + T2I 생성 30%), 64 노드에서 300k 스텝
- SFT: 이미지 편집(OmniEdit 2M), 지시 따르기(FineVision 13M), 고품질 생성. 50k 스텝
벤치마크 결과
이해: 9개 VQA 벤치마크
7B 규모 네이티브 UMM 중 SOTA. 특히 Tuna-2가 인코더를 사용하는 Tuna-R을 능가한다는 점이 핵심이다.
| 벤치마크 | Tuna-R | Tuna-2 | 비고 |
|---|---|---|---|
| GQA | 63.5 | 65.0 | 일반 VQA |
| OCRBench | 85.6 | 85.6 | OCR (동률) |
| V* | 77.8 | 81.7 | 세밀 인지 |
| CountBench | 57.6 | 59.2 | 객체 수 세기 |
| VisuLogic | 26.2 | 28.8 | 시각 논리 추론 |
생성: GenEval & DPG-Bench
GenEval Overall에서 Tuna-R 0.88, Tuna-2 0.87로 인코더 기반이 근소하게 앞선다. 표현 인코더의 시맨틱 사전지식이 생성 품질에는 약간 유리하지만, SFT 후 격차가 거의 사라진다.
LLM 심사(GPT-5.4, Claude Opus 4.7)에서는 Tuna-2가 **다양성(Diversity) 48.4%**로 Tuna-R(37.2%), Tuna(20.6%)을 크게 앞질렀다. 인코더 프리 설계가 더 다채로운 이미지를 생성한다.
이미지 재구성
통합 토크나이저 중 최상위. PSNR 32.80, SSIM 0.93으로 FLUX.1-VAE(33.65, 0.93)에 근접하면서도 별도 토크나이저 없이 달성했다.
가장 흥미로운 지점
논문의 Figure 6이 전하는 메시지가 인상적이다. 훈련 토큰 수를 늘리면서 Tuna-R과 Tuna-2의 이해 성능을 비교하면, 초기에는 인코더 기반이 명확히 앞서지만, 데이터가 충분해지면 인코더 프리가 역전한다. 사전훈련 인코더의 시맨틱 사전지식은 “부트스트랩"이지 “상한"이 아니라는 것이다.
이 발견은 더 넓은 함의를 가진다. 모듈을 추가할수록 귀납적 편향(inductive bias)이 강해지고, 이는 작은 데이터에서는 도움이 되지만 대규모 학습에서는 오히려 천장이 된다. “충분한 데이터와 end-to-end 학습이 주어지면, 단순한 아키텍처가 복잡한 아키텍처를 이긴다”는 딥러닝의 반복되는 교훈이 비전 인코더에서도 확인된 셈이다.
마스킹 ablation도 주목할 만하다. Tuna-2가 Tuna-R보다 마스킹의 혜택을 더 크게 받는데, 이는 SigLIP 2 자체가 이미 유사한 마스킹 목적함수로 훈련되었기 때문이다. 인코더를 제거하면 그 인코더가 내재하고 있던 훈련 기법의 혜택도 사라지지만, 직접 적용하면 더 큰 이득을 얻을 수 있다.
출처
Zhiheng Liu, Weiming Ren, Xiaoke Huang, Shoufa Chen, Tianhong Li, Mengzhao Chen, Yatai Ji, Sen He, Jonas Schult, Belinda Zeng, Tao Xiang, Wenhu Chen, Ping Luo, Luke Zettlemoyer, Yuren Cong. Meta AI / The University of Hong Kong / University of Waterloo. CVPR 2026 Highlight.