챗봇은 창작 도구가 아니다

결론: 챗봇은 창작 과정을 구조적으로 왜곡한다

창작에 AI를 쓸 때 가장 흔한 도구는 챗봇이다. 프롬프트를 넣으면 완성된 결과물이 나온다. 편리하다. 그런데 이 편리함이 바로 문제라는 거다.

카네기멜론과 일리노이대 연구팀이 24명을 대상으로 실험한 결과, 챗봇 UI는 사용자를 설계 고착(design fixation)에 빠뜨린다¹. 사용자는 AI가 처음 내놓은 결과물에 갇혀서 “이걸 어떻게 다듬을까"만 생각하게 되고, “아예 다른 방향은 없을까"라는 질문은 하지 않게 된다. 이건 게으름이 아니라 인터페이스가 유도하는 인지적 경로의 문제다.

연구팀이 만든 HAICo 시스템은 이 문제를 정면으로 건드린다. 발산적 사고(넓게 탐색)와 수렴적 사고(좁혀서 다듬기)를 명시적으로 분리된 모드로 제공한 결과, 같은 사람이 같은 시간을 써도 더 다양하고, 더 참신하고, 더 만족스러운 결과물을 만들어냈다.

결론을 먼저 말했으니, 이제 왜 챗봇이 이런 문제를 만드는지, 그리고 HAICo가 어떤 설계로 이를 해결했는지를 뜯어보자.

왜 챗봇이 창작에 맞지 않는가

구상의 간극

Hutchins의 인지 이론에서 나온 ‘실행의 간극(gulf of execution)‘이라는 개념이 있다¹. 사용자가 하려는 것과 시스템이 받아들이는 입력 사이의 괴리를 뜻한다. 생성 AI에서는 이것이 구상의 간극(gulf of envisioning)으로 변형된다. “내가 원하는 건 분명 있는데 그걸 프롬프트로 어떻게 표현하지?“라는 괴리 말이다.

챗봇은 이 간극을 해소하기는커녕 악화시킨다. 완성된 이미지가 즉시 눈앞에 나타나면, 사용자는 자기가 원래 무엇을 원했는지보다 지금 눈앞에 보이는 것을 기준으로 사고하기 시작한다. 심리학에서 말하는 기준점 편향(앵커링 효과)과 구조적으로 닮아 있다. 기준점 편향은 본래 수치 추정에서의 인지 편향을 가리키는 개념이므로 시각적 창작에 그대로 대입하기엔 한계가 있지만, ‘최초 제시된 결과물이 이후 판단의 기준점이 된다’는 구조적 유사성은 분명하다.

Geneplore 모델이 말하는 창작의 구조

인지심리학의 Geneplore 모델²에 따르면, 창작적 인지는 두 단계의 반복으로 이루어진다.

생성(Generate): 다양한 가능성을 열어두고 탐색한다
탐색(Explore): 생성된 후보들을 평가하고 정교화한다

핵심은 이 두 단계가 분리되어 반복된다는 점이다. 하나를 충분히 한 다음 다른 하나로 넘어가야 한다. 동시에 하려고 하면 — 즉, 탐색하면서 동시에 다듬으려 하면 — 양쪽 다 얕아진다.

챗봇의 문제가 바로 여기에 있다. 프롬프트 하나에 완성된 결과물이 나오니, 사용자는 생성 단계를 건너뛰고 곧장 탐색(수렴)으로 들어간다. 발산이 빠진 창작은 첫 번째 아이디어를 다듬는 데 모든 에너지를 쏟는 것과 같다.

HAICo: 발산과 수렴을 분리한 인터페이스

HAICo 시스템¹은 이 문제를 두 개의 전환 가능한 모드로 해결한다.

발산 모드: 연상 사고 프롬프팅

발산 모드에서 사용자가 “화산 테마 포스터"라고 입력하면, 시스템은 즉시 이미지를 만들지 않는다. 대신 LLM에게 원격 도메인에서 연상되는 아이디어를 뽑아오라고 지시한다. 신화, 역사, 인터넷 밈, 음식 문화 등 평소에는 연결하지 않을 영역에서 영감을 가져오는 거다¹.

이렇게 생성된 아이디어는 카드 형태로 제시된다. 각 카드에는 아이디어의 제목, 설명, 그리고 시각적 미리보기가 담겨 있다. 사용자는 마음에 드는 카드를 고르거나, 카드에서 영감을 받아 새로운 방향을 탐색한다.

이 방식이 왜 효과적인가? 연상 사고를 LLM에 명시적으로 요청하면 — 즉 “이 주제와 먼 영역에서 연결고리를 찾아줘"라고 프롬프트하면 — 생성되는 아이디어의 다양성이 통계적으로 유의미하게 증가한다(p < 0.001)¹. LLM은 가만히 놔두면 가장 확률 높은 답을 내놓지만, “멀리서 가져와"라고 지시하면 실제로 멀리서 가져온다.

수렴 모드: 의미 매개변수 분해

수렴 모드에서는 사용자가 선택한 아이디어를 정교화한다. 여기서 HAICo의 독특한 설계가 빛나는데, “이걸 좀 더 다듬어줘” 같은 자유 텍스트 대신 스케치 방식을 제공한다¹.

스케치 방식은 이미지를 의미 있는 매개변수로 분해한다. 예를 들어 “화산 포스터"라면 ‘용암의 질감’, ‘하늘의 색조’, ‘연기의 밀도’, ‘구도의 원근감’ 같은 매개변수가 드롭다운 선택지와 함께 제시된다. 사용자는 각 매개변수를 조절하면서 자기가 원하는 방향을 탐색한다.

이 설계가 해결하는 것이 바로 구상의 간극이다. “뭔가 다르게 하고 싶은데 뭘 어떻게 바꿔야 할지 모르겠다"는 상황에서, 시스템이 “이런 차원들을 바꿔볼 수 있다"고 제안하는 거다. 실제로 참가자들은 제시된 선택지 중 기본값이 아닌 것을 74.8% 비율로 골랐다¹. 선택지를 보여주는 것만으로도 사용자의 탐색 공간이 극적으로 넓어진다는 뜻이다.

실험 결과: 숫자가 말하는 것

24명의 참가자가 HAICo와 ChatGPT를 각각 사용하여 포스터를 만드는 실험에서, 결과는 꽤 명확했다¹.

창의적 지원 지표(Creativity Support Index) 전 차원에서 HAICo 우위. 즐거움, 탐색 가능성, 결과물 가치, 노력 대비 가치 — 모든 항목에서 HAICo가 유의미하게 높은 점수를 받았다. 특히 ‘탐색 가능성(Exploration)’ 차원에서의 차이가 가장 컸는데, 이건 “이 도구로 다양한 가능성을 탐색할 수 있었는가?“를 측정하는 항목이다.

사용성(UMUX-Lite)도 HAICo 우위. 더 복잡한 인터페이스가 오히려 더 쓰기 쉽다고 평가받았다는 건 주목할 만하다. 모드 전환, 카드 선택, 매개변수 조절 같은 추가적 상호작용이 사용자에게 부담이 아니라 방향감을 제공했다는 뜻이다.

참신성과 다양성 모두 HAICo 우위. 독립적 평가자가 최종 결과물을 평가했을 때, HAICo로 만든 포스터가 더 참신하고 더 다양했다.

그런데 정량적 결과 너머에, 이 실험에서 가장 주목할 만한 발견은 따로 있다.

가장 흥미로운 발견: 학습 전이

실험에서 가장 눈에 띄는 발견은 사용자가 도구에서 무엇을 배웠는가에 관한 것이다¹.

HAICo를 먼저 쓴 사람들: 과제 자체에 대한 지식을 습득했다. “포스터 디자인은 이런 요소들로 구성되는구나”, “이런 스타일이 가능하구나” 같은 과제 학습이 일어났다.
ChatGPT를 먼저 쓴 사람들: 시스템 조작 방법을 학습했다. “이렇게 프롬프트를 쓰면 원하는 게 나온다” 같은 시스템 학습이 일어났다.

이 차이가 왜 중요한가? HAICo에서 배운 “브레인스톰-퍼스트” 전략은 다른 도구에서도 재사용된다. HAICo를 먼저 쓴 참가자들은 이후 ChatGPT를 쓸 때도 “먼저 여러 방향을 탐색한 다음 좁혀가자"는 접근법을 유지했다. 반면 ChatGPT의 프롬프트 기법은 ChatGPT에서만 쓸 수 있다. 24명 대상의 질적 관찰이므로 섣불리 일반화하기는 어렵지만, 방향성은 분명하다.

좋은 도구는 사용자를 도구에 종속시키지 않고, 도구 없이도 써먹을 수 있는 사고방식을 가르치는 거다.

우리가 만드는 도구에 대한 시사점

이 연구의 핵심 메시지는 명쾌하다. 창작 AI 도구는 결과물이 아니라 사고 과정에 비계를 세워야 한다.

현재 대부분의 생성 AI 도구는 “입력 → 결과물” 흐름이다. 미드저니, DALL-E, ChatGPT 모두 이 틀을 따른다. 생산성 도구로서는 훌륭하지만, 창작 도구로서는 구조적 결함이 있다. 생산성은 빠르게 결과를 내는 것이고, 창작은 넓게 탐색한 후에 좁히는 것이니까.

구체적으로 세 가지를 생각해볼 수 있다:

결과물 즉시 생성을 지연시켜라. 사용자가 “만들어줘"라고 했을 때 바로 만들지 말고, “이런 방향들이 있다"부터 보여줘라. 그 사이에 발산적 사고가 일어난다.
수정을 자유 텍스트가 아닌 구조화된 매개변수로 제시하라. “더 좋게 해줘” 대신 “이런 차원들을 바꿔볼 수 있다"고 알려줘라. 모르는 걸 모르는 상태에서 벗어나게 해주는 거다.
도구 사용법이 아니라 과제 지식을 가르치는 도구를 만들어라. 사용자가 이 도구를 버려도 남는 것이 있어야 한다.

이 연구는 이미지 생성이라는 특정 도메인에서, 24명이라는 소규모 표본으로 수행되었다. 그 한계는 분명하다. 하지만 발산-수렴 분리라는 원리 자체는 도메인에 종속되지 않는다. 코드 에디터에서 자동 완성 대신 여러 구현 방향을 먼저 제시하는 것, 글쓰기 도구에서 초안을 바로 생성하는 대신 개요를 먼저 탐색하게 하는 것 — 같은 구조를 적용할 여지는 넓다.

생성 AI가 모든 창작 도메인에 침투하고 있는 지금, ‘결과물을 만들어주는 도구’에서 ‘사고 과정을 구조화하는 도구’로의 전환은 피할 수 없는 흐름이다. 그리고 그 전환의 출발점은, 지금 우리가 만들고 있는 인터페이스에서 “즉시 생성” 버튼을 누르기 전에 한 박자 쉬어갈 여지를 주는 것이다.

Qian Yang, Mia Huynh, Kihoon Son, Aditya Khant, Ziang Xiao, “Exploration vs. Fixation: Scaffolding Divergent and Convergent Thinking for Human-AI Co-Creation with Generative Models” — arXiv:2512.18388, 2025. https://arxiv.org/abs/2512.18388 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Ronald A. Finke, Thomas B. Ward, Steven M. Smith, “Creative Cognition: Theory, Research, and Applications” — MIT Press, 1992. ↩︎

결론: 챗봇은 창작 과정을 구조적으로 왜곡한다#

왜 챗봇이 창작에 맞지 않는가#

구상의 간극#

Geneplore 모델이 말하는 창작의 구조#

HAICo: 발산과 수렴을 분리한 인터페이스#

발산 모드: 연상 사고 프롬프팅#

수렴 모드: 의미 매개변수 분해#

실험 결과: 숫자가 말하는 것#

가장 흥미로운 발견: 학습 전이#

우리가 만드는 도구에 대한 시사점#