3줄 요약
- 자기지도 학습의 표현 붕괴를 막는 전통적 해법은 stop-gradient, EMA teacher, 이중 인코더 같은 구조적 비대칭성이었다
- LeWorldModel의 SIGReg는 임베딩 분포에 “표준 정규를 벗어나지 말라"는 단일 분포 제약 하나로 같은 목적을 달성한다 — 하이퍼파라미터 수는 6→1로 줄었다
- 이는 NAND 게이트가 불리언 논리에서 보여준 ‘단일 프리미티브의 보편성’ 설계 철학과 결이 같다. 복잡한 공학적 비대칭성을 하나의 수학적 제약에 흡수시키는 패턴이 학습 이론에서도 반복되고 있다
이 글의 결론
자기지도 표현 학습에서 ‘붕괴(collapse)‘를 막는 설계의 축이 이동하고 있다. 오랫동안 우리는 네트워크 구조를 비대칭적으로 만들어 학습을 안정화시켰다. Stop-gradient를 한쪽에만 적용하고, EMA teacher를 별도로 돌리고, 인코더를 두 개 두는 식이었다. 이 모든 장치는 하나의 질문, “표현이 상수로 무너지는 것을 어떻게 막을 것인가"에 대한 공학적 회피였다.
LeCun 그룹이 내놓은 LeWorldModel1은 이 축을 이동시킨다. 구조는 단일 인코더로 평평하게 만들고, 안정화는 임베딩 분포 자체에 “표준 정규 분포를 벗어나지 말라"는 제약 하나로 처리한다. 결과적으로 하이퍼파라미터가 6개에서 1개로 줄었고, 그러면서도 CEM/MPC 기반 계획 성능은 최고 수준을 달성했다.
이 설계 이동은 낯설지 않다. 불리언 논리에서 NAND 하나가 모든 게이트를 만드는 설계 철학이 있고, 연속 수학에서도 EML이라는 단일 연산자로 초등 함수 전체를 생성하려는 최근 시도2가 나왔다(현재 논쟁 중이다). 복잡한 비대칭성을 최소한의 수학적 원시 요소로 흡수시키려는 사고방식이, 이번에는 학습 안정화라는 영역에서 반복되고 있다.
JEPA가 필요로 했던 것
먼저 문제의 구조를 짚어야 한다. JEPA(Joint Embedding Predictive Architecture)3는 Yann LeCun이 제안한 월드 모델 프레임워크로, 픽셀 재구성을 버리고 잠재 공간에서만 예측하는 것이 핵심이다. 현재 관측 $o_t$를 인코딩한 $z_t$와, 행동 $a_t$가 주어졌을 때, 다음 상태의 임베딩 $z_{t+1}$을 직접 예측한다. 픽셀을 복원하려 하지 않으니 의미 있는 표현만 남는다는 아이디어다.
문제는 이 목적이 너무 쉽게 달성된다는 점이다. 모든 관측을 같은 상수 벡터로 매핑하는 인코더를 쓰면 예측 오차가 0이 된다. 이것이 ‘붕괴’다. 학습이 의미 있는 표현으로 가지 않고, 가장 게으른 해답으로 굴러떨어진다.
대조 학습(contrastive learning)은 음성 샘플을 끌어내는 힘으로 이 문제를 피한다. 하지만 월드 모델에서는 어떤 상태가 ‘음성’인지 정의하기 어렵다. 경쟁 샘플을 추가로 유지하는 비용도 크다. 그래서 JEPA 계열은 대조 없이 붕괴를 막는 다른 장치가 필요했다.
전통적 해법 — 구조의 비대칭성
기존 JEPA들이 택한 가장 직관적인 경로는 네트워크 구조에 비대칭성을 주입하는 것이었다. 몇 가지 대표적인 기법을 보자.
- Stop-gradient: 타깃 쪽 인코더에는 그래디언트가 흐르지 않게 한다. 같은 방향으로 양쪽이 동시에 이동해 붕괴하는 것을 막는다.
- EMA teacher: 학생 네트워크와 별도로 지수 이동 평균으로 천천히 업데이트되는 교사 네트워크를 둔다. 교사가 타깃을 제공하고, 학생은 그걸 맞춘다.
- 이중 인코더: 소스와 타깃에 서로 다른 인코더를 쓴다.
이 방법들은 ‘학습이 붕괴로 가는 경로를 물리적으로 차단’한다는 공통점이 있다. 작동은 한다. 하지만 왜 작동하는지에 대한 수학적 해명은 경험적으로만 뒷받침되어 있었다. 왜 EMA의 감쇠율이 저 값이어야 하는지, 왜 stop-gradient가 한쪽에만 걸려야 하는지는 경험의 누적으로 결정된 것이다.
한편 다른 경로도 있었다. VICReg, Barlow Twins 계열은 임베딩의 분산·공분산에 직접 통계적 제약을 거는 쪽을 택했다. 이는 이미 “분포 쪽에서 붕괴를 막자"는 흐름의 시작이었고, 그런 점에서 SIGReg는 아예 새 축을 연 것이 아니라 이 흐름을 끝까지 밀고 간 정점에 가깝다. 다만 VICReg도 분산·공분산·중심화·예측 손실을 여전히 개별 항으로 관리하고, 각 항의 가중치를 따로 튜닝해야 한다. 구조적 장치들과 합치면 튜닝 대상이 예닐곱 개에 이르고, 데이터셋에 따라 좋은 조합이 달라지는 경우가 많다.
요컨대 이 단계까지의 풍경은 이랬다. 구조적 비대칭성을 중심으로 두고, 분포적 제약은 그 주변에 보조 항으로 배치되어 있었다. 다음 질문은 자연스럽다. 그 보조 항들 중 하나가 중심을 대체할 만큼 강한 수학적 보증을 갖출 수 있다면 어떻게 될까.
LeWorldModel이 제안한 것 — 분포 제약 하나
LeWorldModel1은 이 모든 구조적 장치를 걷어낸다. 인코더는 ViT 하나, 학습은 end-to-end, stop-gradient도 EMA teacher도 없다. 그 자리에 SIGReg(Sketched-Isotropic-Gaussian Regularizer)라는 단일 정규화항이 들어간다.
SIGReg의 요지는 이렇다. 배치 단위로 얻은 임베딩 $z_1, \ldots, z_B \in \mathbb{R}^d$가 표준 등방 정규 분포 $\mathcal{N}(0, I_d)$에서 뽑힌 것처럼 보이도록 제약을 건다. 이 제약이 0에 가까워지면 임베딩은 특정 방향으로 쏠리거나 상수로 붕괴하지 않는다. 붕괴는 “분포가 델타 함수에 가까워지는 것"인데, 표준 정규로부터의 거리를 직접 벌점으로 걸면 수학적으로 막힌다.
핵심 질문은 이것이다. 고차원 분포가 표준 정규와 가까운지를 어떻게 효율적으로 측정하는가. 그대로 하자면 $d$차원 밀도 함수를 추정해야 하는데, 이건 차원의 저주 영역이다.
Cramér-Wold 정리라는 열쇠
여기서 고전적 결과가 등장한다. Cramér-Wold 정리는 “임의 차원 분포의 모든 방향 1D 주변 분포가 서로 일치하면, 그 분포들의 결합도 같다"고 말한다4. 즉, 고차원 매칭 문제를 방향별 1D 매칭의 집합으로 분해할 수 있다는 것이다.
이걸 활용해, SIGReg는 배치마다 여러 개의 무작위 방향을 뽑아 임베딩을 그 방향으로 투영한다. 각 투영은 1D 스칼라 분포가 된다. 이 1D 분포들이 모두 표준 정규 $\mathcal{N}(0, 1)$에서 나온 것처럼 보이면, Cramér-Wold에 의해 결합 분포도 표준 등방 정규에 가깝다.
Epps-Pulley 검정으로 1D 정규성을 측정한다
1D 정규성을 어떻게 미분 가능한 손실로 만들 수 있을까. LeWorldModel은 Epps-Pulley 정규성 검정 통계량5을 사용한다. 이 검정은 표본의 경험적 특성 함수(characteristic function)와 표준 정규의 특성 함수의 차이를 $L^2$ 노름으로 측정한다. 모멘트 기반 검정(왜도·첨도 같은 것)보다 꼬리에 민감하고, 닫힌 형태로 표현 가능해 손실 함수로 쓸 수 있다.
배치의 각 1D 투영에 Epps-Pulley 통계량을 적용해 합산하면, 배치 전체가 표준 정규에서 얼마나 벗어났는지를 하나의 스칼라로 환산할 수 있다. 이것이 SIGReg 손실이다. 예측 손실과 함께 이 정규화항을 최소화하면, 모델은 “미래를 잘 예측하면서도 임베딩 분포가 표준 정규를 벗어나지 않는” 균형으로 수렴한다.
하이퍼파라미터가 6개에서 1개로
실전적 효과는 이렇다. VICReg이나 BYOL 계열이 유지하던 분산·공분산·중심화·예측 손실 가중치, stop-gradient 위치, EMA 감쇠율 같은 개별 장치가 전부 하나의 정규화 계수 $\lambda$ 뒤로 숨는다. 논문에 따르면 SIGReg 가중치는 데이터셋이 바뀌어도 비슷한 범위에서 잘 작동한다고 보고된다. 즉, 튜닝 부담이 실질적으로 사라진다.
성능 면에서도 저차원 제어 벤치마크(PointMaze, Wall, T-Maze 등)에서 DINO-WM 같은 teacher-student 기반 월드 모델과 동등하거나 더 높은 계획 성공률을 달성한다. 단일 인코더만 돌리면 되므로 CEM/MPC 루프의 시뮬레이션 당 비용도 줄어들어 같은 하드웨어에서 더 많은 후보 궤적을 굴릴 수 있다.
그러면서 잠재 공간은 놀라운 성질을 보인다. 학습이 끝난 후 임베딩에 선형 프로브를 걸면, 에이전트의 2D 좌표나 벽의 존재 여부 같은 물리적 변수가 높은 정확도로 복원된다. 예측 목적과 단일 정규화만 걸었을 뿐인데, 세계의 구조가 잠재 공간에 자발적으로 출현한 것이다. 이는 “세계를 예측하려면 세계를 모형화할 수밖에 없다"는 가설을 경험적으로 뒷받침하는 결과이기도 하다.
왜 이 이동이 중요한가
기술적 개선으로 치면 “JEPA 계열 한 편의 SOTA 갱신"으로 보일 수 있다. 하지만 이 논문이 흥미로운 이유는 설계의 축이 어디로 이동하고 있는지를 보여주기 때문이다.
과거에는 “구조가 안정화를 만든다"는 관점이 지배적이었다. 올바른 비대칭성을 주입하는 것이 학습 안정성의 핵심이라고 여겨졌다. ResNet의 skip connection, Transformer의 Pre-LN, GAN의 Wasserstein 거리, 대조 학습의 음성 샘플 — 모두 ‘구조로 문제를 해결한다’는 철학의 산물이다.
LeWorldModel은 다른 관점을 보여준다. 네트워크 구조는 평평하게 두고, 학습 목적 자체에 올바른 분포적 제약을 걸어 같은 결과를 얻는다. 구조의 자리가 정규화항으로 이동한 것이다. 그리고 그 정규화는 임시방편이 아니라 Cramér-Wold라는 고전 정리로 뒷받침되는 수학적 보증을 갖는다.
단일 프리미티브 설계 철학과의 공명
여기서 한 번 호흡을 고르자. 이 축 이동을 더 큰 그림에 놓으면 어떤 패턴이 보인다. 최소한의 증명이 아니라 설계 철학의 공명 차원에서 그렇다.
몇 가지 영역에서 반복되는 형태가 있다.
- 불리언 논리: NAND 게이트 하나로 모든 불리언 회로를 구성할 수 있다. AND, OR, NOT을 개별 게이트로 두지 않아도 된다. 수학적으로 완결된 케이스다.
- 연속 수학(논쟁 중): EML 논문2은 $\mathrm{eml}(x, y) = e^x - \ln y$라는 단일 이항 연산자와 상수 1로 초등 함수 전체를 생성할 수 있다고 주장했다. 다만 발표 직후 공개 검토에서 등식 이론이 성립하지 않는다는 반박이 제기됐다 — sin의 영점 판정이 결정 불가능이므로 재작성 규칙이 건전하지 않고, 같은 함수(예: $-z$)를 표현하는 서로 다른 EML 트리가 특이점에서 값이 어긋난다는 지적이다. “연속 수학의 NAND 게이트"라는 야심 자체는 아직 열려 있다.
- 신경망 활성화: ReLU 하나가 연속 함수의 보편 근사자 역할을 한다. 시그모이드·tanh 같은 개별 비선형성이 없어도 된다.
이 사례들이 가리키는 방향은 하나다. 표면의 다양성이 최소한의 원시 요소 + 반복적 조합으로 환원될 수 있다는 것. 다양성은 구성 요소의 다양성이 아니라 조합 구조에서 창발한다.
SIGReg는 이것과 같은 강도의 증명은 아니다. NAND는 완전성(모든 불리언 함수를 생성)의 수학적 증명을 갖고, EML은 그 강도의 주장을 했지만 현재 반박을 받고 있다. SIGReg가 주는 것은 “임베딩이 표준 정규를 벗어나지 않으면 붕괴하지 않는다"는 분포 수준의 경험적·이론적 보증에 가깝다. 범주가 다르다.
그래도 설계 철학의 결은 같은 방향을 가리킨다. stop-gradient, EMA teacher, 이중 인코더, 분산·공분산의 개별 항 — 이 공학적 변주들이 사실은 “임베딩 분포에 형태를 부여하라"는 하나의 요구를 여러 각도에서 흉내 내고 있었다는 해석이 가능하다. 그 요구를 직접 수학적으로 명문화하면, 변주들이 하나의 제약으로 수렴한다. 이 수렴 방향이 NAND·EML의 철학과 공명한다는 것이다.
비유는 여기까지다. 더 밀면 깨진다는 것을 분명히 해두는 편이 정직하다.
그래서 무엇을 배울 것인가
실무자의 관점에서 이 이동이 시사하는 바는 세 가지다.
첫째, 안정화를 위한 비대칭성을 구조에 박아 넣기 전에, 분포 제약으로 대체할 수 있는지 먼저 검토한다. 새로운 아키텍처를 설계할 때 stop-gradient나 이중 인코더를 반사적으로 도입하는 습관이 있다면, 그것이 실제로 구조의 문제인지 아니면 정규화로 해결 가능한 문제인지 질문해볼 만하다.
둘째, 하이퍼파라미터가 많아지는 설계는 종종 ‘문제를 제대로 이해하지 못했다’는 신호다. LeWorldModel의 6→1 감축은 단순히 편의성 개선이 아니다. 그만큼 문제의 본질에 가까운 단일 축을 찾았다는 뜻이다. 튜닝 대상이 많다면, 그 항들이 서로 독립적인 원인을 다루고 있는지 아니면 같은 원인의 여러 그림자인지 의심해볼 만하다.
셋째, 고전 통계·해석학의 도구가 여전히 새로운 학습 이론의 지렛대다. Cramér-Wold는 1936년 결과, Epps-Pulley는 1983년 결과다. 수십 년 된 도구가 2026년의 월드 모델을 안정화시킨다. 최신 아키텍처만 따라가는 것이 최선이 아닐 수 있다. 이 연구가 보여주듯, 오래된 수학적 보증을 학습 목적에 연결시키는 쪽에 큰 이득이 있다. 다른 분포 근접도 측정 — KL 발산, MMD(Maximum Mean Discrepancy), Wasserstein 거리 등 — 이 다음 후보로 올라올 수 있고, 각자의 장단이 있으니 SIGReg가 유일한 답이라 단정할 이유도 없다.
남은 질문들
물론 이 논문이 모든 것을 해결한 것은 아니다. 실험은 저차원 제어 환경(PointMaze, Wall, T-Maze 등)에 국한되어 있다. 비디오나 로봇 스케일에서도 SIGReg 하나로 충분한지, 대규모 분산 학습에서 배치 단위 투영이 효율적인지, 정규화 강도가 스케일에 따라 어떻게 변하는지는 열려 있다.
그래도 이 연구는 방향을 제시한다. 복잡한 공학적 비대칭성을 하나의 분포 제약에 흡수시키는 설계가 가능하며, 그것이 이론적 보증과 성능을 동시에 제공할 수 있다는 것을. 다음에 새로운 자기지도 아키텍처를 볼 때, “이 방법이 필요로 하는 구조적 장치들이 실은 어떤 단일 분포 제약의 변주는 아닌가"라는 질문을 해볼 가치가 있다.
Maes, Le Lidec, Scieur, LeCun, Balestriero — “A Stable End-to-End Single-Encoder JEPA World Model (LeWorldModel)”, arXiv:2603.19312, 2026. https://arxiv.org/abs/2603.19312 ↩︎ ↩︎
Odrzywołek, A. — “All elementary functions from a single binary operator”, arXiv:2603.21852v2, 2026. https://arxiv.org/abs/2603.21852 — 발표 직후 Hacker News 공개 토론에서 한 독자가 Lean으로 며칠간 검증한 뒤 “sin의 영점 판정 불가능성 때문에 등식 이론이 성립하지 않고, 뺄셈에도 특이점이 발생하므로 단일 프리미티브 주장이 성립하지 않는다"는 반박을 제시했다(HN 토론). 아카이브 상에는 철회 공지가 없지만, 현재 시점에서 주장은 논쟁 중이다. ↩︎ ↩︎
Yann LeCun — “A Path Towards Autonomous Machine Intelligence”, OpenReview, 2022. JEPA 프레임워크의 원안. ↩︎
Cramér, H. & Wold, H. — “Some theorems on distribution functions”, Journal of the London Mathematical Society, 1936. 임의 차원 분포의 모든 1D 주변이 일치하면 결합도 일치한다는 고전 결과. ↩︎
Epps, T.W. & Pulley, L.B. — “A test for normality based on the empirical characteristic function”, Biometrika, 1983. 경험적 특성 함수 기반의 정규성 검정 통계량. ↩︎
