深入浅出完整解析FLUX.2、Seedream、Z-image、GLM-Image核心基础知识

3줄 요약

글의 정체 — 즈후 칼럼 「Rocky Ding의 AI 알고리즘 무기보」의 약 7만 자짜리 종합 해설. FLUX.2(BFL)·Seedream(바이트댄스 Seed)·Z-Image(통이 MAI)·GLM-Image(Z.ai) 네 모델의 핵심 기초 지식을 한 편에 묶었다.
핵심 진단 — 2025년 하반기는 AIGC 이미지 창작 영역의 “중장 시간(中场时刻)”. Stable Diffusion + FLUX 양강 구도는 깨졌고, 대기업이 본격 진입하면서 단일 문생도(텍스트→이미지) 모델의 가치는 빠르게 사라진다. 미래 아키텍처는 DiT-Transformer 기반 확산과 자기회귀 + 확산 조합 두 갈래로 수렴한다.
메타 함의 — 이 “하프타임"에서 살아남는 것은 디테일 튜닝 장인이 아니라, 어떤 AIGC 도구가 주기 횡단(跨周期) 가치를 가지는지를 식별하는 안목이다. 단일 모델 파라미터를 최적화하던 스타트업·전통 기업 대모델 부서는 대기업의 차원적 타격에 노출된다.

글의 정체

저자: Rocky Ding (베이징과기대 공학석사). 즈후 칼럼 「Rocky Ding의 AI 알고리즘 무기보」, 공식 계정 WeThinkIn 운영.
편집일: 2026-03-27 (저장 시점 기준).
분량: 본문 약 76,000 한자. 네 개 모델 + GRPO 알고리즘 + 추천 읽을거리 17개 섹션.
글의 성격: 신규 연구 발표가 아니라, 2025년 하반기까지의 오픈/클로즈드 AIGC 이미지 대모델 4종을 기술 보고서 수준으로 정리·비교한 종합 해설이다.

Rocky의 거시 관점 — AIGC “하프타임”

저자는 본문 도입부에서 다음 진단을 내놓는다.

2025년 하반기를 기점으로 AIGC 이미지 영역은 두 가문 독점에서 군웅할거로 전환되었다. FLUX.2·Z-Image·GLM-Image·FLUX.1 Kontext (오픈) + GPT-4o·Nano Banana·Seedream (클로즈드)이 동시에 시장을 흔든다.
이 단계에서 가장 가혹하게 시험받는 것은 코어 모델이 아니라 그 주변을 받치던 보조 AIGC 기술들이다. 코어 모델이 한 번 아키텍처를 갈아엎으면 보조 기술의 80–90%는 *디지털 먼지(数字尘埃)*가 된다.
단일 문생도 모델의 가치는 사라진다. 텍스트→이미지, 편집(증·삭·수정·검색), 풍격 이전, 신원 보존 생성(Identity-Preserving Generation), 다주체 일관성 생성(Multi-Subject Consistency)은 모두 필수 기본기가 된다.
미래 아키텍처는 두 갈래로 수렴: (1) DiT-Transformer 기반 확산, (2) Transformer 자기회귀 + 확산 디코더 조합 (GPT-4o 계열).

저자가 가장 날 세우는 대목은 다음이다. AIGC 스타트업과 전통 기업 대모델 부서가 장인처럼 단일 모델의 파라미터를 다듬고 미감을 살피는 동안, 대기업은 데이터·연산·인재 밀도가 결합된 “전쟁 기계"를 굴려 차원적 타격을 가한다. 전통 딥러닝 시대 “AI X 소룡"들이 빅테크에 정리당한 과정과 같다는 비유다.

어떤 AIGC 기술 도구가 주기 횡단 가치를 가지는지, 어떤 것이 미래의 기반 돌이 되는지를 식별해 내는 것이 AIGC 시대의 가장 강력한 해자다.

이 메타 주장이 글 전체의 뼈대가 되고, 네 모델은 각각 주기 횡단 가치를 가진 사례로 제시된다.

1. FLUX.2 — Black Forest Labs의 정통 2세대

라인업

모델	파라미터	위치
FLUX.2 [pro]	(비공개)	클로즈드, BFL Playground·API
FLUX.2 [flex]	(비공개)	step/guidance 노출, 최대 10장 참조
FLUX.2 [dev]	32B	오픈, fp8로 RTX 4090 단일 실행 가능
FLUX.2 [klein]	4B / 9B	Apache 2.0, 교사 모델 증류본
FLUX.2-VAE	(별도)	모든 FLUX.2의 기반, Apache 2.0

신규 능력

참조 이미지 최대 10장. 프롬프트에서 “그림 2의 옷을 그림 1의 인물에게” 같은 명시적 색인 가능.
4MP(예: 1920×1920)까지 편집. 입력 합산 최대 14MP(flex).
중국어 입력·중국어 텍스트 렌더링이 생산 환경에서 사용 가능 수준.
JSON 형식의 구조화된 다중 부분 프롬프트 지원.
#DDC57A 같은 16진수 색상 코드로 객체 색상 지정.

FLUX.2 VAE — 잠재공간 3원 모순의 정면 돌파

저자는 FLUX.2의 연구 출발점을 다음과 같이 정리한다.

잠재공간 특징 설계의 가학습성(learnability) - 재구성 품질(reconstruction) - 압축률(compression) 3원 고유 충돌.

기존 VAE들의 한계 비교:

VAE	핵심 강점	핵심 결함
SD VAE	압축률·추론 빠름	재구성 보존도 약함
FLUX.1 VAE	잠재 차원 4배 확장으로 편집용 보존도 ↑	의미 정규화 없어 잠재공간 구조 불규칙
RAE	동결 DINOv2를 인코더로 써 가학습성 극대화	픽셀 재구성 목표 없어 편집 불가
FLUX.2 AE	차원 확장 + 의미 정규화 동시 적용	압축률·연산은 약간 상승

설계 요점은 다음과 같다.

공간 압축률은 8×로 유지, 채널 차원만 32로 확장(SD 4, FLUX.1 16, RAE 768).
2×2 patching으로 단일 토큰 채널 수가 SD 16, FLUX.1 64, FLUX.2 128, RAE 768.
손실 함수에 REPA(REPresentation Alignment) 정규화를 추가. VAE 잠재 표상을 DINOv2 같은 시각 기반 모델의 고수준 의미 특징과 정렬시킨다.

저자가 옮긴 측정치는 다음과 같다(낮을수록 좋음, SSIM/PSNR 제외).

모델	LPIPS	SSIM	PSNR	rFID
RAE	1.6737	0.4962	18.83	0.6107
SD VAE	0.9519	0.6976	25.05	0.6451
FLUX.1 VAE	0.3380	0.8893	31.13	0.1761
FLUX.2 AE	0.2668	0.9038	31.46	0.1124

FLUX.2 AE는 LPIPS가 FLUX.1 대비 21.1%, SD VAE 대비 72.0% 낮다. 가학습성을 보는 gFID도 FLUX.1 대비 63.5%, SD VAE 대비 52.1% 낮다. RAE만 gFID가 3.10으로 더 낮지만, 그 대가로 LPIPS가 1.67이라 편집 같은 픽셀 정합 작업에는 쓸 수 없다.

Text Encoder · DiT 백본 변경

T5와 CLIP을 버리고 Mistral-Small-3.2-24B-Instruct-2506 VLM 단일 인코더로 통합. 세계 지식·문맥 이해·재질·공간 관계 모델링이 강화된다.
DiT 백본은 FLUX.1과 동일한 MM-DiT(쌍류) + 병렬 DiT(단류) 구조를 유지하되, 32B로 스케일.
시간·가이던스 정보는 모든 쌍류/단류 블록 사이에서 공유, 모든 레이어에서 편향 파라미터 제거.
단류 블록은 어텐션 QKV 투영과 FFN 입력 투영을 융합해 완전 병렬 Transformer 구조 구현. 활성함수는 GELU 대신 SwiGLU.
쌍류:단류 비율이 FLUX.1의 19:38에서 8:48로 단류 비중 대폭 확대(파라미터의 73%가 단류).
위치 인코딩은 3D RoPE에서 4D RoPE로 확장. (t=조건/타깃 구분, w, h, l=텍스트 토큰 순서).

CFM 학습의 시간 단계 최적화

조건부 흐름 매칭(CFM) 손실은 다음과 같다:

$$\mathcal{L}_{\text{CFM}}(\theta) = \mathbb{E}_{t \sim p, u \sim p_{\text{data}}, \epsilon \sim \mathcal{N}} \|v_\theta\left( (1-t)E(u) + t\epsilon; t \right) - \left( \epsilon - E(u) \right)\|_2$$

저자가 옮긴 핵심 발견:

최적 시간 단계 분포는 평이 균일 분포보다 로그정규/평탄 로그정규가 항상 우수.
최적 학습 오프셋 $\alpha$는 잠재 차원에 비례: SD VAE 1.00, FLUX.1 1.78, FLUX.2 4.63, RAE 6.93.
추론용 오프셋은 학습 오프셋보다 항상 약간 높음.
학습 오프셋의 민감도가 압도적이라 FLUX.1은 최적-최악 격차가 86.42%, FLUX.2는 73.3%.

2. Seedream — 바이트댄스의 3세대 진화

2.0(2025-03) → 3.0(2025-04) → 4.0(2025-09)로 반년 만에 세 번 도약한 시리즈. 저자가 잡은 줄거리는 세 가지 한국·중국형 한계의 정면 돌파다.

모델 편식 — Midjourney의 미감 vs. 프롬프트 준수 트레이드오프, Ideogram의 텍스트는 강하나 중식 미학 약함 등.
다국어 텍스트 렌더링 부재 — 영문만 최적화, 중국어 같은 표의 문자에 약함.
중국 문화 의미 부재 — 해외 모델의 근본적 결손.

모듈별 핵심

PE 모듈(프롬프트 엔지니어링): Seed 자체 LLM 기반. SFT + RLHF. RLHF는 생성된 이미지에 대한 인간 선호를 prompt 재작성 LLM으로 역전파하는 방식. 4.0에서는 Seed1.5-VL 기반 멀티모달 PE로 확장되어 AdaCoT(자가 적응 사고 사슬) 도입. 간단한 작업은 사고 예산 축소, 복잡한 작업은 확대.
VAE: 자체 모델, 8× 다운샘플 추정. 1024² 이미지를 32×128×128로 압축.
Text Encoder: T5/CLIP를 버리고 Decoder-only 자체 이중언어 LLM으로 통일. 보조로 Glyph-Aligned ByT5가 글자 단위 자형 임베딩을 추출하여 시퀀스 차원에서 연결.
- Glyph-Aligned ByT5는 DINOv2를 동결 시각 인코더로 두고, Box-level Contrastive Loss로 ByT5 텍스트 인코더만 미세 조정.
DiT(MMDiT): SD3 계열 쌍류 구조 계승. 2.0에서 Scaling RoPE 도입(이미지 중앙 토큰이 분해능 사이에서 공유되는 ID), 3.0에서 Cross-modal RoPE로 텍스트와 이미지 위치 관계까지 결합.
Refiner: 2.0까지만 사용. 3.0부터는 원생 2K·4K 생성이 되어 폐기. 다만 저자는 자기회귀+확산 디코더 구조에서 확산 디코더의 역할이 사실상 SDXL의 Refiner를 잇는 주기 횡단 사례라고 평한다.

데이터 구축

단계	핵심 혁신
2.0	4대 데이터 모듈(고품질·분포 유지·지식 주입·표적 보강), 3단계 클리닝, 능동 학습 엔진, 이중 캡션 시스템(일반·전문)
3.0	결함 인지 학습 — 결함 영역 20% 미만이면 마스크 잠재 최적화로 보존, 유효 데이터 21.7% 증가
4.0	지식형 데이터 전용 파이프라인 — 교재·논문·소설 PDF에서 도표 추출, OCR + LaTeX로 수식 합성 데이터 생성

학습 4단계 파이프라인

Pre-training → Continue Training (CT) → SFT → RLHF의 4단계가 2.0 이후 시리즈의 표준 골격.

CT: 자체 IQA 모델로 선별한 고화질 + 백만 장 미적 데이터. VMix 전략(색·광·질감·구도 4축 미적 라벨)으로 미감과 prompt 준수를 동시 보존.
SFT: 모델이 만든 열등 샘플을 음성 표본으로 같이 학습시켜 “플라스틱 질감” 회피.
RLHF: 단일 보상 모델 편향 문제를 회피하려고 이미지-텍스트 정합·미감·텍스트 렌더링 세 개의 CLIP 기반 보상 모델 동시 학습 → 3.0에서 VLM 기반 보상 모델로 1B→20B 스케일링 → 4.0에서 자체 RewardDance·DanceGRPO 적용.

3.0은 Artificial Analysis 경기장 ELO 1158점으로 글로벌 1위, 4.0은 문생도·이미지 편집 양쪽 ELO 1위(2025-09-18 기준 저자 표기)에 등극.

추론·배포 최적화

3.0: Consistent Noise Expectation 안정 샘플링 + 중요 시간 단계 학습 샘플링(RayFlow 기반). 1K 종단 추론 3초.
4.0: ADP(적대적 증류 후훈련) + ADM(적대적 분포 매칭) 2단계 가속 + 하드웨어 인지 4/8비트 혼합 양자화 + VLM PE에 대한 Hyper-Bagel 기반 투기 디코딩. 2K 생성 1.4초로 3.0 대비 10배 추가 가속.

3. Z-Image — “작은 모델로도 충분하다"의 증명

통이 MAI 팀의 6B 파라미터 모델. 저자의 표현으로는 “scaled up model의 근육 자랑이 아니라, 데이터·학습·추론 전체에 걸친 배포 효율 문제로 동기가 전환된 작업“이다.

라인업

버전	위치
Z-Image-Omni-Base	SFT/RL 없는 원생 사전훈련 기반, 사회 미세조정용
Z-Image	미감·다양성·통제 가능성 우선 기본
Z-Image-Turbo	8-step NFE, H800에서 sub-second, 16GB 소비자 GPU에서도 구동
Z-Image-Edit	편집 전용

전체 학습 비용은 314K H800 시간 ≈ 63만 달러. 동급 모델의 일부에 불과하다. Artificial Analysis 오픈 문생도 총 8위.

S3-DiT (Scalable Single-Stream Diffusion Transformer)

단류 조기 융합: 텍스트 토큰, 이미지 VAE 토큰, (편집 시) 시각 의미 토큰을 시퀀스 차원에서 직접 이어붙여 단일 시퀀스로 처리.
30층, 은닉 차원 3840, FFN 중간 10240, 어텐션 헤드 32.
텍스트 인코더는 Qwen3-4B(동결), 이미지 VAE는 FLUX.1 VAE(동결), 편집 시 SigLIP 2를 시각 의미 추출에 사용.
3D U-RoPE: 이미지(w/h), 텍스트(시퀀스 차원), 편집의 참조/타깃(시간 축 offset)을 한 좌표계로 묶음.
Zero-init gate: 어텐션·FFN 출력에 0으로 초기화된 게이트를 두어 30층의 안정 학습 보장.
저랭크 adaLN으로 시간 단계·텍스트 전역 조건 주입.

데이터 인프라

저자가 가장 길게 다루는 부분.

Data Profiling Engine — 정보 엔트로피(테두리 분산·JPEG 재인코딩 바이트 밀도)로 저복잡도 표본 제거, AIGC 생성 검출기로 AI 합성 데이터 전량 제외(중요한 폐쇄 회로 방지).
Cross-modal Vector Engine — 전통 range_search를 k-NN + 그래프 커뮤니티 탐색으로 재구성. 10억 데이터를 H800 8대로 8시간에 처리.
World Knowledge Topological Graph — 위키피디아 실체·하이퍼링크 기반 초기 그래프 → 중심성 필터 → VLM으로 추상 개념 제거. 의미 수준의 균형 샘플링과 재앙적 망각 방지가 목적.
Active Curation Engine — 모델 약점 자동 탐지 → 교차 모달 검색으로 표적 데이터 보충.

학습 곡선

단계	분해능	비용
저분해능 사전훈련	256×256	147,500 H800-시간 (총 사전훈련의 50% 이상)
Omni 전체 사전훈련	임의 분해능, T2I + I2I 합동	142,500 H800-시간
PE-aware SFT	(Z-Image 산출)	—
Few-step Distillation	100 NFE → 8 NFE	Decoupled DMD + DMDR(분포 매칭+RL)
RLHF	(Z-Image-Turbo 산출)	DPO + GRPO

저자가 강조하는 통찰은 다음이다.

이미지 데이터 분포의 다양체(manifold) 차원은 생각보다 높지 않다. 그래서 대규모 DiT-Transformer의 많은 가중치는 사실상 영향력이 없다.

이 관찰이 6B로 12B–80B를 따라잡는 효율 우선 패러다임의 근거가 된다. 저자는 FLUX.1 Lite-8B-alpha(12B→8B 경량화)도 같은 흐름의 선례로 호명한다.

4. GLM-Image — AR + Diffusion 분리 아키텍처의 정본

Z.ai(과거 Zhipu) 작업. 자기회귀 9B + 확산 디코더 7B 분리 구조.

큰 그림

AR Generator (9B) — GLM-4-9B-0414로 가중치 초기화. 저주파·전역 정보(레이아웃·주제 구조·핵심 의미)를 의미 정렬에 강하게 맞추는 역할.
Diffusion Decoder (7B) — 잠재공간 이미지 디코더. 고주파·디테일·화질 보강.
VQ-VAE 인코더 — XOmni의 semantic-VQ tokenizer. 16× 압축비.
Vision Encoder — 입력 이미지 인코딩.
Glyph 인코더 — T5 기반, 텍스트 렌더링 정밀도 강화.

화웨이 Atlas 800T A2 + MindSpore로 AR 본체의 전체 학습을 국산화 환경에서 완료했다는 점도 본문에서 강조된다(MindSpeed-LLM 기반 자체 파이프라인).

시각 토큰화의 선택

저자는 세 종류 시각 토큰을 비교한다.

재구성 학습 VQVAE — 픽셀 정보는 완전, 의미 연관성은 약함.
의미 학습 semantic-VQ — 의미·이미지 정보 균형.
1D 통계 의미 특징(DALLE-2 류) — 텍스트 의미와는 가깝지만 디테일 손실 큼.

같은 코드북 규모에서 VQVAE 토큰의 학습 손실은 약 7, semantic-VQ는 약 3. 가까운 의미는 학습 수렴을 빠르게 만든다는 데이터가 GLM-Image의 semantic-VQ 선택 근거.

AR 학습 단계

GLM-4-9B에서 변경된 점:

텍스트 word embedding 동결 — 사전훈련된 의미 표상 보존.
visual word embedding 신규 추가 — 시각 토큰을 모델 잠재공간에 사상.
LM Head를 vision LM Head로 교체 — 출력 분포를 시각 토큰 분포에 맞춤.
위치 인코딩은 MRoPE로 교체해 텍스트-시각 이질 시퀀스를 한 좌표계로 다룸.

분해능 학습 곡선:

단계	분해능	핵심
1단계	256px (토큰 256개)	좌→우, 위→아래 래스터 스캔 자기회귀
2단계	512px (토큰 1024개)	점진적 생성 도입 — 먼저 256개의 저분해능 전역 토큰(밑그림) 생성 후 1024개의 고분해능 디테일 토큰
3단계	512–1024px (토큰 1024–4096개)	혼합 분해능, 전역 토큰 손실 가중치 강화

그림을 그릴 때 먼저 밑그림을 친 다음에 디테일을 입히는 인간의 작법을 따른다.

이 점진적 생성 + 전역 토큰 가중 강화가 고분해능에서 디테일 우선·전역 붕괴를 막는 핵심.

Diffusion Decoder

Single-Stream DiT + Flow Matching.
입력 조건: (1) Conditional Image Embeds (참조 이미지의 semantic-VQ 토큰 + VAE 잠재변수, 채널 결합), (2) Glyph Embeds (Glyph-byT5, 시퀀스 결합), (3) 노이즈가 더해진 타깃 VAE 잠재변수.
Block Causal Attention — Qwen-Image-Edit가 쓰는 전체 어텐션 대비 KV 캐시로 추론 비용 절감.
semantic-VQ가 충분한 의미를 담고 있어 텍스트 인코더가 디코더에 없음. 단, 편집 작업에서는 참조 이미지의 고주파 디테일 보존을 위해 VAE 잠재변수를 같이 입력.

후훈련 — 두 모듈 분리 RL

AR: 저주파 보상 — HPSv3(미감) + OCR(텍스트 렌더링) + VLM(의미 합치성).
Diffusion Decoder: 고주파 보상 — LPIPS(질감 유사도) + OCR + 전용 손 평가 모델(손 구조 합리성).
알고리즘은 GRPO, 확산 디코더는 flow-GRPO(확산용 변형).

5. GRPO — AIGC 이미지 영역의 주류 RL이 된 이유

저자는 단독 5.4절을 할애해 GRPO를 정리한다. DeepSeek가 LLM 추론용으로 제안한 PPO 경량 변종이 AIGC 이미지 RL의 사실상 표준이 된 배경이다.

한 줄 요지

가치 네트워크의 절대 가치 추정을 그룹 내 상대 보상 정규화로 대체한다.

핵심 수식

같은 관찰 $c$에 대해 정책망 $\pi_{\theta_{\text{old}}}$로 $G$개의 독립 표본을 뽑고, 보상 $\{R_1, ..., R_G\}$의 그룹 평균/표준편차로 표본별 상대 우위를 계산한다:

$$\hat{A}_i = \frac{R_i - \mu_R}{\sigma_R}, \quad \hat{A}_{i,t} = \frac{\hat{A}_i}{T}$$

목표 함수는 PPO의 CLIP 메커니즘을 그대로 빌리되, 가치 네트워크가 사라진 자리에 그룹 상대 우위가 들어간다:

$$J_{\text{GRPO}}(\theta) = \mathbb{E}_{\pi_{\theta_{old}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{T} \sum_{t=1}^T \min\left( r_{i,t}(\theta) \cdot \hat{A}_{i,t}, \text{clip}(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon) \cdot \hat{A}_{i,t} \right) - \beta \cdot \text{DKL}(\pi_\theta \,\|\, \pi_{\text{ref}}) \right]$$

$r_{i,t}(\theta)$는 새 정책과 옛 정책의 확률 비. $\text{clip}$으로 갱신 폭을 제한하고, $\text{DKL}$로 사전훈련 기준 정책에서 멀어지지 않도록 묶는다.

강화학습은 “오차를 줄이는” 일이 아니라 “이득을 늘리는” 일이라, 손실 함수 경사 하강이 아니라 목표 함수 경사 상승을 쓴다.

PPO·DPO 대비

알고리즘	우위 추정	가치 네트워크	연산량(PPO=100%)	안정성	이미지 적합성
GRPO	그룹 내 상대 정규화	❌	50%	높음	매우 좋음
PPO	가치 네트워크 + 우위함수	✅	100%	중간	좋음
DPO	선호 쌍의 직접 최적화	❌	70%	높음	좋음(소량)

AIGC 이미지 적용 표준 6단계

사전훈련된 이미지 대모델을 초기 정책망 $\pi_{\theta_{\text{init}}}$로 둠.
한 프롬프트로 $G=16$ 장의 다양한 이미지 표본 생성.
HPSv3·BLIP-2·DINO로 다축 보상 → Z-Score 정규화 → 가중 융합.
그룹 상대 우위 $\hat{A}_i$ 계산, 확산 단계 $t$에 $\hat{A}_{i,t}$로 분배.
AdamW로 경사 상승. $\text{DKL} > 0.1$이면 학습률을 낮추고 재갱신.
새 정책망을 옛 정책망으로 두고 보상 평균 향상이 10라운드 동안 0.01 미만일 때까지 반복.

가장 흥미로운 지점

1) “잠재공간 3원 모순"이라는 정본 프레임

FLUX.2가 처음으로 잠재공간을 가학습성-재구성-압축률의 3원 충돌로 공식화했다는 것이 가장 강한 정리 가치를 가진다. 이 프레임 하나로 SD VAE·FLUX.1 VAE·RAE의 설계 선택과 결함을 일관되게 설명할 수 있고, FLUX.2 AE의 차원 확장 + REPA 의미 정규화가 왜 필요한지 한 줄로 끌어낼 수 있다.

2) “AIGC 생성 데이터를 학습에서 전량 배제”

Z-Image의 AIGC 검출기로 AI 합성 이미지 전부를 학습 데이터에서 제거한 선택은, 같은 6B 동급 오픈소스가 클로즈드 모델 출력으로 증류해 닫힌 천장에 갇히는 회로를 정면으로 피한 결정이다. 작은 모델일수록 데이터 회로가 모델 천장을 결정한다는 점에서 가장 실용적인 함의가 있다.

3) “이미지 생성 RL의 주력은 GRPO”

전통 RL에서 PPO가 차지하던 위치를 그룹 상대 보상만으로 GRPO가 빠르게 대체했다는 보고. 가치 네트워크 제거로 메모리 50% 절감 + 안정성 유지가 핵심인데, 같은 골격이 LLM 정렬과 AIGC 이미지 정렬에서 동시에 작동한다는 점에서 주기 횡단성이 가장 또렷한 사례다.

4) 두 갈래로의 수렴

저자가 “DiT-Transformer 단일 확산” 대 “자기회귀 + 확산 디코더” 두 갈래로 미래 아키텍처를 정리한 부분은, 4개 모델을 비교할 때 가장 깔끔한 좌표계가 된다. FLUX.2·Z-Image는 전자, GLM-Image는 후자, Seedream은 DiT를 중심에 두면서 PE/VLM 단계에서 자기회귀를 끌어들이는 절충형이다. 한 표 안에 시리즈 전체의 설계 선택이 들어온다.

출처

저자: Rocky Ding (베이징과기대 공학석사), 즈후 칼럼 「Rocky Ding의 AI 알고리즘 무기보」
편집일: 2026-03-27
원문: https://zhuanlan.zhihu.com/p/1975174691049189562

원문에는 4개 모델의 생성 예시, 데모 영상(Seedream 5.0 Lite 1분 27초 클립), Z-Image 라인업 비교 이미지, GLM-Image 아키텍처 다이어그램이 포함되어 있으나, 본 다이제스트는 텍스트 정리체로만 옮겼다. 이미지가 필요하면 별도로 호스팅하여 추가할 수 있다.

3줄 요약#

글의 정체#

Rocky의 거시 관점 — AIGC “하프타임”#

1. FLUX.2 — Black Forest Labs의 정통 2세대#

라인업#

신규 능력#

FLUX.2 VAE — 잠재공간 3원 모순의 정면 돌파#

Text Encoder · DiT 백본 변경#

CFM 학습의 시간 단계 최적화#

2. Seedream — 바이트댄스의 3세대 진화#

모듈별 핵심#

데이터 구축#

학습 4단계 파이프라인#

추론·배포 최적화#

3. Z-Image — “작은 모델로도 충분하다"의 증명#

라인업#

S3-DiT (Scalable Single-Stream Diffusion Transformer)#

데이터 인프라#

학습 곡선#

4. GLM-Image — AR + Diffusion 분리 아키텍처의 정본#

큰 그림#

시각 토큰화의 선택#

AR 학습 단계#

Diffusion Decoder#

후훈련 — 두 모듈 분리 RL#

5. GRPO — AIGC 이미지 영역의 주류 RL이 된 이유#

한 줄 요지#

핵심 수식#

PPO·DPO 대비#

AIGC 이미지 적용 표준 6단계#

가장 흥미로운 지점#

1) “잠재공간 3원 모순"이라는 정본 프레임#

2) “AIGC 생성 데이터를 학습에서 전량 배제”#

3) “이미지 생성 RL의 주력은 GRPO”#

4) 두 갈래로의 수렴#

출처#