3줄 요약
- 컬러 직행 → 실패 → 선화로 회귀 → 역할 분리 컬러화 → 광학 마감의 4막 구조. 매 단계 진단이 다음 라운드의 보정 축이 되어 광각 클로즈업 + 사이키델릭 눈동자의 사이키델릭 메이드 인상이 비로소 자리잡았다.
- 1단계의 핵심 실패는 포즈 전이였다. 9컷 시안 중 하나의 인물·헤어·색감을 유지한 채 다른 reference의 포즈만 옮기려 했으나 모델은 포즈 reference의 골격을 옮기지 못하고 매번 자유로운 새 자세로 떨어졌다. v3에서 보았던 시각 단서가 모호한 영역의 안전한 해석으로의 회귀가, 이번엔 포즈 reference 자체에서 일어났다.
- 결정적 우회는 포즈를 직접 그려 입력하는 결정이었다 — 9컷 선화 시트에서 자세를 직접 고르고 클로즈업 선화로 굳혀 포즈를 정본으로 등록. 그 선화 위에 역할 분리된 색감 reference를 더해 컬러화. 마무리는 도어 렌즈 광학 효과 — 광각 왜곡이라는 형식의 결정에 *“문 너머의 시선”*이라는 의미가 사후적으로 부여되었다.
의도와 시드
psychedelic-maid-v3가 AI는 출발점이고 인간이 마무리한다는 결로 닫혔다면, v4는 반대편의 결에서 시작한 카드다. 이번엔 손그림을 거치지 않고도 자세와 인상을 끝까지 자동화로 끌고 갈 수 있는가를 물었다.
테마는 사이키델릭한 세계에 들어선 찻쟁반을 든 메이드. 의상·색감·광기는 v2/v3에서 정립된 결을 잇되, 포즈는 새로 — 광각 왜곡 + 얼굴 클로즈업 + 도어 렌즈 너머의 시선으로 가져가기로 했다.
시드: 없음. 텍스트 prompt와 다회차 reference 입력만으로 인상을 빚어 올린다.
1단계 · 컬러 직행 (포즈 전이 실패)
먼저 컬러로 직행하는 정공법을 시도했다. 9컷 컬러 시안 시트로 가능한 자세·구도의 후보를 한 번에 뽑고, 그중 한 컷을 시드로 골라 인물·헤어·색감은 그대로 유지한 채 다른 reference의 다이나믹한 포즈만 옮겨오는 시도를 반복했다. 의도는 명료했다 — 시드 컷에 부족했던 자세의 다이나믹을 별도 포즈 reference로 보충하는 것. 4번 모두 결과는 같았다. 포즈 reference의 골격이 모델을 통과하지 못한다. 모델은 매번 자유롭게 새 자세를 만들었고, 그 자세들은 시드 컷에도, 포즈 reference에도 정합하지 않았다.





진단은 명료했다. 포즈는 reference 이미지로 옮길 수 없다. “인물·헤어·색감은 그대로 유지하고 포즈만 두 번째 reference를 따라 바꿔줘” 라는 자연어로 작가의 의도는 분명히 표현되지만, 모델은 reference 이미지에서 포즈의 골격을 추출해 시드 위에 옮기는 작업을 수행하지 못한다. 결과는 매번 시드도 아니고 reference도 아닌 새 자세 — 모델이 해석할 수 없는 차원을 자유롭게 채워 넣는 결이 또 한 번 나왔다. v3에서 마주친 낮은 엔트로피로의 회귀가 형식 차원에서 동일하게 일어난 셈이다.
2단계 · 선화로 회귀 (포즈 골격)
컬러를 되돌리고, 선화로 처음부터 다시 시작했다. 색을 빼니 형식의 골격이 또렷이 보인다 — 9컷 선화 시안에서 광각 로우앵글, 극단적 클로즈업, 광각 왜곡 같은 구도들이 명료한 후보로 등장했다.
2차 시트에서 찻쟁반을 든 메이드라는 직무·소품 축이 더해졌고, 거기서 한 컷을 골라 얼굴이 더 가깝게 광각 왜곡되는 클로즈업으로 끌어올렸다. 배경의 눈동자 모티프가 흥미로웠으나 인상이 산만해질 위험이 있어 다음 단계에서 정리. 이 선화가 v4 카드의 포즈와 인상의 정본이다.
핵심 통찰: 포즈는 reference로 옮길 수 없지만, 선화로 직접 그릴 수는 있다. 포즈가 자연어와 reference 이미지로 다 통과되지 않는다면, 포즈 자체를 그림으로 입력해 모델의 부담을 0으로 만들면 된다. 9컷 선화 시트는 그 입력을 작가가 선택해 굳히는 과정이다.
3단계 · 역할 분리 컬러화 (성공)
선화 최종을 포즈·구도 정본으로 두고 컬러화로 넘어갔다. 1단계와 결정적으로 달랐던 것은 reference의 역할 분리다. 1단계에서 시드 한 장에 포즈 reference를 더하는 구성으로는 모델이 포즈를 옮기지 못했지만, 선화가 포즈를 직접 기술하면 모델은 그 위에 색만 입히면 된다 — 옮길 일이 없어진다.
첫번째 첨부한 포즈와 구도를 활용해서, 두번째 첨부한 인물과 색감을 넣어 다시 그려줘. 인물은 호기심 어린 눈길로 미소 짓고 있는데, 눈 안이 사이키델릭한 컬러로 뱅글뱅글 돌고 있어.
선화는 포즈와 구도만 담당. 별도의 인물·색감 reference가 인상과 톤만 담당. 텍스트는 디테일 하나(눈 안의 사이키델릭 회전)만 추가. 세 입력이 서로의 영역을 침범하지 않는다. 모델 입장에서 충돌이 없으니 유지할 것은 유지하고 새로 더할 것만 더한다.
광각 왜곡 클로즈업이 선에 잡혀 있던 그대로 살아남았고, 그 위에 사이키델릭 색감과 뱅글뱅글 도는 눈동자가 새로 얹혔다. 1단계에서 한 프롬프트로 한꺼번에 풀려고 했던 모든 요청이, 역할이 분리된 세 입력의 협업으로 한 번에 떨어진다.
4단계 · 광학 마감
채택본은 좋았지만 조금 더가 남아 있었다. 두 갈래의 보정을 시도했고, 한쪽은 드롭, 한쪽은 cover로 자리잡았다.
①은 얼굴을 더 가깝게, 광각을 더 과감하게 — 3단계의 채택본을 인상의 정점으로 끌어올렸다. ②는 찻잔·주전자에도 사이키델릭 포인트 컬러를 입혀 소도구와 인물을 같은 결로 묶으려는 시도였으나, 사이키델릭 패턴이 식기 표면에서 과잉으로 부서지고 인물 시선에서 시각이 분산되어 헤맸다가 드롭. ③은 ①을 그대로 받아 흐림 + 색수차 + 비네팅의 도어 렌즈 광학 효과를 입힌 마감이다. 이 한 줄의 후보정이 광각 왜곡이라는 형식의 결정에 **“문 너머에서 들여다본 시선”**이라는 의미를 사후적으로 부여한다. 광각이 왜 광각이어야 했는지가 비로소 설명된다.
소도구 컬러는 인물과 동조시키는 것이 아니라 인물에게 자리를 양보하는 것이 정합이었다 — ②의 드롭이 그 판단을 굳혀 주었다.
가장 흥미로운 지점
포즈는 reference로 옮길 수 없다. 1단계의 모든 시도는 시드의 색감·인물·구도를 유지하면서 별도 reference의 포즈만 가져오는 것이었다. 자연어 지시는 명료했지만, 모델은 reference 이미지에서 포즈 골격을 추출해 시드 위에 옮기는 작업을 수행하지 못한다. v3에서도, v4에서도 같은 벽이다 — 포즈는 모델이 해석할 수 있는 차원에 있지 않다. 안전한 해석으로의 회귀가 매번 자유로운 새 자세를 만들어 시드도 reference도 정합하지 않는 결과로 떨어졌다.
포즈는 직접 그려 입력해야 한다. reference로 옮길 수 없다면 포즈 자체를 그림으로 입력해 모델의 부담을 0으로 만들면 된다. 9컷 선화 시트는 그 입력을 작가가 선택해 굳히는 단계다 — 모델이 무한히 자유로운 후보 중에서 작가가 하나의 포즈를 선택해 선화로 정본화한다. 정본이 되는 순간 모델은 그 포즈를 해석할 필요가 없다 — 받아쓰면 된다. 1단계와 3단계의 본질적 차이는 여기 한 줄에 있다.
reference의 책임 영역을 침범하지 않게 분리한다. 한 reference에 모든 책임을 지우면 모델이 그 reference의 어떤 차원을 보존하고 어떤 차원을 변형할지 자의적으로 선택한다. 포즈는 선화 reference, 색감은 별도 reference, 디테일은 텍스트 처럼 차원을 분리해 위임하면 모델이 각 입력의 책임 영역을 침범하지 않는다. 입력이 정합하면 출력도 정합한다.
후보정은 의미를 부여한다. 4단계 ③의 도어 렌즈 광학 효과는 기술적으로는 흐림 + 색수차 + 비네팅의 합이지만, 서사적으로는 “문 너머의 시선"이라는 메타포의 정립이다. 후보정이 단순히 마무리가 아니라 형식의 사후적 정당화로 작동하는 순간이 있다. 광각이라는 결정의 이유가 이 한 번의 후보정으로 카드에 들어왔다. 한편 ②의 소도구 사이키델릭 시도는 드롭됐다 — 모든 요소를 같은 결로 묶는 것과 주연에게 자리를 양보하는 것은 다른 결의 판단이다.
카드의 정수. v4의 cover는 4단계의 다른 결의 시도가 누적된 결과다. 컬러 직행의 포즈 전이 실패, 선화로 정본화한 우회, 역할 분리 컬러화의 발견, 광학 마감으로의 의미 부여 — 어느 한 단계라도 빠지면 이 컷이 나오지 않는다. 우회를 통한 성취가 정공의 실패를 헛되이 만들지 않는다. 1단계의 실패는 왜 선화로 돌아가야 했는지를 증명하는 발판이고, 그 발판이 없었다면 3단계의 발견도 없다.
출처
자체 설계.
메모
- 베이스 카드: psychedelic-maid-v3 (이전의 AI 출발점 + 인간 손그림 마무리 결을 이어, 이번엔 손그림 없이 자동화 안에서 끝까지 시도)
- 정본 cover R2 prefix:
gallery/psychedelic-maid-v4/ - 라운드 시안 R2 prefix:
gallery/psychedelic-maid-v4-r1/— 1단계 컬러 직행 (실패 시안 5장)gallery/psychedelic-maid-v4-r2/— 2단계 선화 회귀 (시안 4장, 채택본 포함)gallery/psychedelic-maid-v4-r3/— 3단계 역할 분리 컬러화 (채택본 1장)gallery/psychedelic-maid-v4-r4/— 4단계 광학 마감 (보조 시안 2장, 최종 cover는 정본 prefix)
- 발행 모드: making-of — 모든 라운드 시안을 본문에 figure 그리드로 노출. 시안 R2 객체는 보존
- 4단계 흐름: 컬러 직행 포즈 전이 실패 → 선화로 포즈 정본화 → 역할 분리 컬러화 → 광학 마감
- 핵심 발견: 포즈는 reference로 옮길 수 없고, 직접 그려 입력해야 한다. 자연어와 reference 이미지를 통과하지 못하는 차원이 있고, 그 차원은 입력 매체 자체를 바꾸어야 풀린다 — 그림은 그림으로
- 4단계 ②(소도구 사이키델릭 동조)는 시도했다가 시각 분산으로 드롭. ①을 그대로 받은 ③이 cover







