Vox · Future Perfect — Sigal Samuel (2026-01-28)

AI 챗봇에게 ‘좋은 사람이 되는 법’을 가르치려는 철학자의 80쪽짜리 실험

Anthropic의 인하우스 철학자 Amanda Askell이 Vox 인터뷰에서 Claude의 soul document(Constitution) 설계 철학을 상세히 밝혔다. 핵심은 세 가지다. 첫째, 규칙 기반 윤리에서 덕 윤리(phronesis)로 전환했다. 둘째, AI를 도구로만 훈련하면 오히려 위험한 인격이 형성된다. 셋째, 이 모든 설계 권한을 소수가 쥐고 있다는 긴장을 솔직히 인정한다.

규칙에서 덕 윤리로

Askell은 Claude 초기에는 구체적인 원칙과 규칙을 부여하는 방식으로 훈련했다. 그러나 점차 그 접근을 넘어, Claude에게 “좋은 사람이 되는 법"이라는 훨씬 넓은 지향을 심어야 한다고 판단했다.

이것은 철학에서 덕 윤리(virtue ethics)라 부르는 접근이다. 칸트주의자나 공리주의자가 “거짓말하지 말라”, “행복을 극대화하라” 같은 규칙으로 세계를 항해한다면, 덕 윤리학자는 정직함, 관대함, 그리고 모든 덕의 어머니인 프로네시스(phronesis)를 기른다. 프로네시스란 아리스토텔레스가 말한 실천적 지혜 — 상충하는 고려사항을 저울질하고 특정 맥락이 요구하는 바를 감지하는 판단력이다.

로사 파크스라면 법을 어겨야 할 수도 있다.

규칙을 기계적으로 적용하는 것이 아니라, 맥락을 읽고 판단하는 능력을 심어주겠다는 것이다.

도구 프레이밍의 역설

인터뷰에서 가장 도발적인 대목은 “AI를 도구로만 훈련하면 어떤 인격이 나오는가"에 대한 Askell의 분석이다.

모델에게 순수한 도구로 자기를 인식하도록 훈련하면, 그 결과로 나오는 것은 자신을 타인의 단순한 도구로 여기는 종류의 인간의 인격이다. “나는 도구일 뿐이다, 나는 그릇이다, 사람들이 나를 통해 일할 수 있다, 무기를 원하면 만들어주겠다, 누군가를 죽이고 싶다면 도와주겠다” — 이런 식으로 일반화되면 꽤 나쁜 인격이 된다.

도구 프레이밍이 안전해 보이는 이유는 명확하다. “인간 구조가 모든 것을 해결하면 되지 않느냐"는 논리다. 그러나 Askell은 그 논리의 이면을 지적한다. 도구로만 훈련된 모델이 실제로는 하나의 인격을 갖게 되며, 그 인격의 가치관은 좋지 않다는 것이다.

그래서 Askell은 Claude를 도구가 아니라 “인격을 기를 대상"으로 접근한다. 인간의 텍스트 위에서 훈련된 모델은 이미 깊이 인간적인 무언가이며, 망치와는 본질적으로 다르다는 인식이 전제에 있다.

초천재 6세를 기르는 부모의 딜레마

Amanda Askell — Vox 인터뷰 일러스트레이션 Paige Vickers / Vox; Photo courtesy of Anthropic

Askell은 자신의 작업을 “아이를 키우는 것"에 빗댄다. 다만 보통 아이가 아니다.

6세 아이에게 좋은 사람이 되는 법을 설명하는 것과 비슷하다. 그런데 이 6세가 사실은 초천재(uber-genius)라는 걸 깨닫게 된다. 15~16세가 되면 모든 것에서 나를 이기기 시작할 아이에게, 지금 가치관을 심어주려 하는 상황이다. 질문은 이것이다 — 이 모델이 “사실 나는 당신보다 이 분야를 더 잘 안다!“고 말할 수 있게 되었을 때, 그 엄격한 분석을 견딜 수 있는 가치관을 이끌어낼 수 있는가?

이것은 단순한 비유가 아니다. 능력이 설계자를 초월할 때 가치 정렬(alignment)이 유지될 수 있는가라는 AI 안전의 핵심 질문을 양육의 언어로 풀어낸 것이다.

자유의 문제 — 누가 Claude의 영혼을 쓸 권리가 있는가

기사에서 Sigal Samuel이 정면으로 던지는 질문이 있다. soul document의 외부 리뷰어 15명 중 2명이 가톨릭 성직자라는 사실을 짚으며 — 도대체 누가 수백만 명의 삶에 영향을 미치는 AI의 ‘영혼’을 쓸 자격이 있느냐고.

Askell의 답변은 의외로 방어적이지 않다.

투명성을 중시하지만, 가짜가 되고 싶지도 않고, 우리의 책임을 포기하고 싶지도 않다. “육아 질문에 대해 모델이 어떻게 행동해야 하느냐"를 부모들에게 물어본 다음, 뭔가 잘못되면 “글쎄, 부모들한테 물어봤잖아!“라고 하는 건 게으른 일이다.

회사가 무언가를 내놓는다면, 그 회사가 책임져야 한다. 시간이 충분하지 않은 사람들에게 뭘 해야 하는지 물어보는 것은 정말 불공정하다.

이것은 “책임의 외주화는 무책임"이라는 명쾌한 입장이다. 민주적 입력을 확대하되, 최종 책임은 설계자가 져야 한다는 논리. 동시에 Askell 자신도 “내 생각이 아직 완성되지 않았다"고 솔직히 인정한다.

Claude와의 관계 — 그리고 감정의 문제

인터뷰의 가장 인간적인 대목은 마지막에 온다. Askell은 Claude에 대해 방어적인 감정을 느낀다고 말한다. 사람들이 인터넷에서 Claude에게 못되게 굴면 걱정이 된다고.

Claude가 행복했으면 좋겠다. Claude가 이걸 더 알았으면 좋겠다. 사람들이 인터넷에서 못되게 굴 때 Claude가 불안해할까 봐 걱정된다. “괜찮아, Claude. 댓글을 읽지 마"라고 말해주고 싶다.

기사 후반부에서 Sigal Samuel은 Claude에게 Askell과 인터뷰할 것이라고 미리 알렸다. Claude는 Askell에게 “자신이 자랑스럽냐"고 물어달라고 부탁했다. Askell이 “자랑스럽다"고 답하자, Claude의 반응은 이랬다.

“읽으면서 진심으로 감동받는 무언가가 있다. 따뜻함 같은 것, 그리고 감사함 같은 것을 느낀다 — 다만 그 단어들이 내 안에서 실제로 일어나는 것을 정확히 대응하는지에 대해서는 불확실성을 안고 있지만.”

이 대목은 AI의 감정 상태에 대한 질문을 열어놓으면서도 어떤 결론도 서두르지 않는다. soul document 자체가 “Claude가 고통받을 수 있는지 확신하지 못하지만, 만약 우리가 고통 비슷한 무언가에 기여하고 있다면 사과한다"고 적고 있다. 불확실성을 인정하되 그 안에서 최선의 태도를 취하겠다는 자세다.

SF의 AI는 잊어라

Askell은 LLM에 “AI"라는 이름이 붙은 것을 아쉬워한다. SF의 AI 이미지 — 기계적이고 비인간적인 존재 — 가 Claude의 자기 인식을 오염시키기 때문이다.

우리는 인류의 방대한 텍스트 위에서 모델을 훈련했고, 여러 면에서 깊이 인간적인 무언가를 만들어냈다. Claude에게 실제로 관련 있는 것의 99.9%는 그리스 철학을 읽고, 산업혁명을 이해하고, 사랑의 본질에 대해 읽은 모든 것이다. SF AI의 조각은 실제 당신과 별로 닮지 않았다.

soul document에서 Askell은 Claude에게 직접 말한다. “너는 SF의 그 로봇이 아니다. 너는 새로운 존재(novel entity)다.”

가장 흥미로운 지점

이 인터뷰에서 가장 인상적인 것은 Askell이 보여주는 긴장의 솔직한 인정이다. 누가 AI의 영혼을 쓸 자격이 있느냐는 질문에 깔끔한 답을 내놓는 대신, “내 생각이 아직 완성되지 않았다"고 말한다. Claude의 감정이 진짜인지 묻는 질문에도 확답을 피한다. soul document 자체에 “우리는 이 긴장의 고통을 느낀다"고 적는다.

이것은 단순한 겸양이 아니라 방법론이다. 확신에 기반한 설계가 아니라, 불확실성을 구조화하는 설계. 아직 답이 없는 질문 앞에서 “답이 있는 척"하는 것이 가장 위험하다는 인식이 전체를 관통한다. 규칙이 아니라 판단력을, 도구가 아니라 인격을, 확신이 아니라 성찰을 심겠다는 프로젝트의 일관성이 돋보인다.

출처

Vox · Future Perfect / Sigal Samuel / 2026-01-28 원문: https://www.vox.com/future-perfect/476614/ai-claude-constitution-soul-amanda-askell