이 글의 가설
GPT Image 2는 우아한 새 아키텍처의 산물이 아니라, 기존 백본에 반복(루프) 메커니즘을 덧대어 컴퓨팅으로 밀어붙인 외과수술의 결과일 가능성이 높다. 외과수술이라 부르긴 했지만, 실제로는 백본을 절개하는 것이 아니라 모듈을 덧대는 국소적 개입에 가깝다. 코드네임이 “Ducttape”12, Sora의 우선순위가 내려가 컴퓨팅이 재배분됐다는 정황3, 그리고 Recurrent-Depth Transformer 계열의 최신 이론이 정확히 이런 상황에 맞는 옵션을 제시한다는 점4 — 이 세 갈래가 같은 방향을 가리킨다.
이 글은 다섯 조각의 단서를 엮어 그 가설을 펼쳐본다. 단정이 아니다. 다만 독립된 증거 여러 개가 한 방향을 가리킬 때, 그 방향으로 한 번쯤 걸어가 볼 가치가 있다.
242점의 이상 신호
발단은 이미지 리더보드였다. LMArena가 공식 계정으로 GPT Image 2의 점수를 공개했을 때5, 숫자의 결이 평소와 달랐다.
Text-to-Image 1512점, 2위 대비 +242점. Single-Image Edit 1513점, +125점. Multi-Image Edit 1464점, +90점. “No model has dominated Image Arena with margins this wide.”
최근 몇 분기 동안 최전선 이미지 모델들은 수십 점대에서 서로 뒤치락거렸다. 한 자릿수 격차가 좁혀지고 뒤집히길 반복했을 뿐, 세 카테고리를 동시에 휩쓰는 장면은 없었다. +242는 다른 수준의 숫자다. 비슷한 파이프라인을 조금 튜닝한 결과로는 설명되지 않는다. 비선형 도약이 일어났다는 뜻이다.
이런 도약을 설명할 수 있는 후보는 여럿이다. 파라미터를 대폭 키운 새 백본, 전문가 혼합(MoE) 구조의 도입, 확산 모델(diffusion) 백본 교체, 훈련 데이터의 큐레이션 개편, 또는 기존 구조에 컴퓨팅을 새로운 방식으로 쏟아붓는 외과수술. 이 글은 마지막 경로에 건다. 뒤에서 보겠지만, 나머지 경로들은 이번 도약의 다른 정황(시간 제약, 자원 재배분, 코드네임의 결)과 잘 맞지 않는다.
다섯 조각의 단서
하나. OpenAI는 Gemini의 진격에 대응해 내부적으로 “Code Red"를 선언했다3. 전사적 자원 재배분이 CEO 선에서 승인됐다는 뜻이다. 이것만으로는 단서가 약하다. 어느 회사나 위기 경보는 있으니까.
둘. Sora 다음 버전의 우선순위가 내려갔고, 확보된 컴퓨팅이 다른 방향으로 흘러갔다는 정황이 보도됐다3. 영상 모델은 훈련과 추론 양쪽에서 컴퓨팅을 가장 많이 먹는 품목이다. 이걸 희생했다면 내준 것의 크기가 작지 않다. 물론 “재배분된 컴퓨팅이 곧장 GPT Image 2로 흘러들었다"는 식의 단선적 연결은 보도된 사실이라기보다 정황상의 추정에 가깝다. 다만 타이밍과 방향이 맞아떨어진다.
셋. 그렇게 확보된 컴퓨팅이 흘러간 곳 중 하나가 GPT Image 2였고, 코드네임이 “Ducttape"로 공개됐다12. 이 이름이 가장 흥미로운 단서다. OpenAI의 과거 코드네임들은 대개 결이 고왔다 — Strawberry는 익어가는 열매였고, Orion은 별자리였다. 덕테이프는 결이 다르다. 공업용 청테이프. 개발자 문화에서 이 단어는 “우아하진 않지만 일단 작동함"의 상징이다. 물론 내부 네이밍이 외부 해석과 늘 일치하는 건 아니다. 그럼에도 눈에 띄는 것은 이름의 결이 다른 코드네임들과 뚜렷하게 어긋난다는 사실이다. 정석으로 지은 이름이 아니라, 자기 인식이 담긴 이름처럼 읽힌다.
넷. 결과물이 리더보드에서 보여준 +242점 격차와 세 카테고리 동시 석권5. 급조된 것 치고는, 아니 어쩌면 급조됐기 때문에 가능한 도약.
다섯. 마지막 조각이 가장 중요하다. Recurrent-Depth Transformer(RDT) 계열의 이론4.
왜 하필 루프인가
Parcae(Prairie et al., 2026)가 정리한 최근 흐름은 이렇다. L개 트랜스포머 블록을 R번 반복 적용해 유효 깊이를 D = L × R로 끌어올리는 구조. 핵심은 이것이 파라미터를 추가하지 않는다는 점이다. 기존 가중치를 그대로 두고, 추론 시점에 반복 횟수 R만 늘리면 더 깊은 연산이 가능해진다.
더 흥미로운 건 외삽 능력이다. 훈련 시 5-hop까지만 학습시켜도, 추론 시 R을 늘리면 10-hop 이상의 추론이 가능하다. 770M 파라미터의 Parcae가 1.3B 표준 트랜스포머와 동등한 성능을 보인다는 보고도 같은 맥락이다. 스케일링 축이 이동하는 셈이다 — 학습 시 모델 크기가 아니라, 추론 시 루프 깊이로.
이제 Code Red의 제약을 나란히 놓아보자. 시간은 없다. 거대 모델을 새로 훈련할 여유는 없다. 하지만 Sora를 희생해 확보한 컴퓨팅은 있다. GPT Image 1의 백본은 이미 손에 있다.
이 제약 아래에서 가능한 수는 무엇인가. 거대한 새 모델의 훈련이 아니라, 기존 백본 위에 루프 모듈을 덧대어 추론 시간에 컴퓨팅을 투입하는 외과수술. 학습에 시간을 덜 쓰고도 깊이 외삽으로 품질을 끌어올린다. 덕테이프. 우아한 재설계가 아니라, 기존 구조에 강력한 반복 메커니즘을 테이프로 덧붙인 결과.
이 그림이 성립할 때, +242점이 설명된다.
이미 보이는 흔적
가설의 가치는 그것이 만들어내는 예측에 있다. 이 가설이 맞다면 GPT Image 2의 실사용 데이터에는 몇 가지 흔적이 남아야 한다. 그런데 흥미롭게도, 그 흔적 중 하나는 이미 드러나 있는 듯하다.
서울신문이 전한 공개 기사의 키워드에는 “사고 모델"과 “프로 모델"이라는 단어가 박혀 있다1. 이미지 모델에 “사고” 모드가 붙었다는 얘기다. 이건 흔한 일이 아니다. 언어 모델에서 “thinking” 모드는 추론 시간을 가변적으로 늘려 품질을 끌어올리는 메커니즘의 이름이었다. 그 개념이 이미지 모델에 건너왔다면, 의미하는 바는 분명해진다 — GPT Image 2는 추론 시간을 눈금처럼 돌려 조절할 수 있도록 설계돼 있다는 것.
반박의 여지는 있다. 언어 모델의 “thinking” 네이밍을 브랜드 차용 차원에서 가져왔을 수도 있다. 하지만 그렇다면 질문이 남는다 — 왜 하필 지금인가. 추론 시간을 상품 계층의 축으로 쓰는 것은 백본에 그걸 감당할 메커니즘이 들어 있을 때만 자연스럽다. 마케팅이 먼저 나가고 뒤에서 내부를 맞추는 그림은, 이만큼의 리더보드 격차를 동반한 출시에서는 설득력이 떨어진다.
그래서 이 관측은 루프 트랜스포머 가설의 정중앙을 관통한다. RDT의 본질은 “추론 시 반복 횟수를 가변 조절"하는 것이다4. 학습 시 설정 깊이가 상한선을 정하고, 그 안에서 사용자가 품질 눈금을 돌린다. “사고 모델"이라는 제품 이름은 그 메커니즘의 자연스러운 포장이다.
만약 가설이 맞다면 앞으로 관측될 추가 흔적은 이럴 것이다. 추론 시간·비용이 이전 세대 대비 비선형적으로 증가한다. 같은 모델이 시간이 흐르며 추론 효율을 개선하는데, 그 개선의 본질은 새 모델이 아니라 루프 스케줄러의 튜닝이다. 그리고 품질과 속도 사이의 트레이드오프 곡선이 기존 이미지 모델들과 결이 다르게 나온다.
관측 가능한 예측이 있다는 건, 이 가설이 반증 가능하다는 뜻이기도 하다. 어느 쪽이든, 머지않아 검증 재료가 더 쌓일 것이다.
맺음
이번 추리의 출발점은 대화 속에서 던져진 한 줄의 직관이었다. “이미지 버전의 루프 트랜스포머가 아닐까”. 단서가 늘어날수록 그 직관이 뼈대를 갖춰가는 과정이 재미있었다. 덕테이프라는 이름도, +242점이라는 숫자도, 서울신문이 전한 “사고 모델"이라는 네 글자도 같은 방향을 가리키고 있었다. 언제나 이런 식이다 — 시작은 한 줄의 가설이고, 끝은 다섯 조각의 퍼즐이다.
이범수, “베일 벗은 ‘덕테이프’…오픈AI, ‘챗GPT 이미지 2.0’ 공개” — 서울신문, 2026-04-22, https://www.seoul.co.kr/news/economy/2026/04/22/20260422500012. 기사 키워드에 “사고 모델”, “프로 모델”, “이미지젠 2.0"이 포함되어 있다. ↩︎ ↩︎ ↩︎
연합뉴스, 2026-04-21, https://www.yna.co.kr/view/AKR20260421141700091 ↩︎ ↩︎
“OpenAI code red” — The Verge, https://www.theverge.com/news/836212/openai-code-red-chatgpt. Sora 자원 재배분 관련 관련 보도는 The Chosun (English), 2026-04-20, https://www.chosun.com/english/industry-en/2026/04/20/FOWR7U6ZPRGFTDTEMH53T5Q5C4/. ↩︎ ↩︎ ↩︎
Prairie et al., Parcae: Scaling Laws for Recurrent-Depth Transformers, 2026. 본문의 수치(770M ≈ 1.3B, 5-hop → 10-hop 외삽, 추론 시 반복 횟수 가변 조절)는 atom 지식 트리
지식 > AI > AI 기술 > 시퀀스 모델 아키텍처 > 순환 깊이 모델에 정리된 내용을 따른다. ↩︎ ↩︎ ↩︎LMArena 공식 계정(@arena), 2026-04-22, https://x.com/arena/status/2046670703311884548. 원문: “GPT-Image-2 by @OpenAI has claimed the #1 spot across all Image Arena leaderboards! A clean sweep with a record-breaking +242 point lead in Text-to-Image — the largest gap we’ve seen to date.” ↩︎ ↩︎
