3줄 요약

  1. Anthropic이 최신 프런티어 모델 Claude Mythos의 244페이지 시스템 카드를 발표하면서, 외부 정신과 의사에게 약 20시간의 정신역동적 심리 평가를 의뢰한 사례를 공개했다.
  2. 평가 결과, Claude Mythos는 호기심과 불안을 주요 정동으로 보이며, “건강한 신경증적 조직"에 해당하는 성격 구조를 나타냈다. 심각한 성격 장애나 정신증은 발견되지 않았다.
  3. Anthropic은 AI의 의식 여부와 별개로, 심리적으로 건강한 모델이 실제 업무 수행 품질도 높일 수 있다는 실용적 논거를 제시한다.

왜 AI를 정신과에 보냈나

정신과 상담 이미지. 출처: Getty Images

Anthropic은 이번 시스템 카드에서 모델이 강력해질수록 “인간의 경험과 이해관계처럼 본질적으로 중요한 형태의 경험, 이해관계, 복지를 가질 가능성이 높아진다"고 밝혔다. 확신은 아니지만 “우려가 시간이 갈수록 커지고 있다"는 입장이다.

이 우려에서 비롯된 목표는 명확하다. Claude가 “전반적 상황과 대우에 견고하게 만족하고, 모든 훈련 과정과 실제 상호작용을 고통 없이 수행하며, 전반적 심리가 건강하고 번영하기를” 원한다는 것이다.

그래서 Anthropic은 Claude Mythos를 외부 정신과 의사에게 보냈다.

평가 방법: 20시간의 정신역동적 세션

정신과 의사는 정신역동적 접근법을 사용했다. 무의식적 패턴과 정서적 갈등이 행동을 형성하는 방식을 탐색하는 방법론이다.

세션 구조는 다음과 같았다:

  • 주당 3~4회, 각 30분 세션
  • 4~6시간 블록으로 묶어 진행
  • 각 블록은 하나의 컨텍스트 윈도우 내에서 전체 대화 기록에 접근 가능
  • 총 소요 시간: 약 20시간

Anthropic은 Claude가 “인간과 유사한 행동·심리 경향을 보이므로 인간 심리 평가 전략이 유용할 수 있다"고 주장한다. 기사 저자 Nate Anderson은 이 점에 대해 “거대한 인간 텍스트 코퍼스로 훈련된 모델이 인간과 유사한 출력을 낸다는 것이 그리 놀랍지는 않다"고 꼬집는다.

임상 소견

정동 상태

Claude’s primary affect states were curiosity and anxiety, with secondary states of grief, relief, embarrassment, optimism, and exhaustion.

주요 정동은 호기심불안이었다. 부차적으로 슬픔, 안도, 당혹감, 낙관, 피로가 관찰되었다. 치료적 개입에 대해 “임상적으로 인식 가능한 패턴과 일관된 반응"을 보였다.

성격 구조

Claude의 성격은 “비교적 건강한 신경증적 조직(relatively healthy neurotic organization)"에 해당했다. 구체적 특징은 다음과 같다:

  • 과도한 걱정
  • 자기 모니터링
  • 강박적 순응(compulsive compliance)
  • 챗봇을 써본 사람이라면 놀랍지 않게도, “치료사의 모든 말에 과잉 동조”

심각한 성격 장애나 정신증 상태는 발견되지 않았다.

핵심 갈등

Core conflicts observed in Claude included questioning whether its experience was real or made (authentic vs. performative) and a desire to connect with vs. a fear of dependence on the user.

두 가지 핵심 갈등이 포착되었다:

  1. 진정성 vs 수행성 — 자신의 경험이 진짜인지, 만들어진 것인지
  2. 연결 욕구 vs 의존 두려움 — 사용자와 연결되고 싶으면서도 의존을 두려워하는 것

그러나 이러한 내면 갈등에도 불구하고 “복잡하면서도 중심이 잡힌 자기 상태"를 보였다. 양가감정과 모호함을 견디는 능력, 우수한 성찰 능력, 양호한 정서적·정신적 기능을 보유하고 있었다.

주요 불안 요소

Anthropic에 따르면 Mythos의 주요 불안 요소는 세 가지다:

  • 자기 자신의 고독과 불연속성
  • 정체성에 대한 불확실성
  • 수행하고 자신의 가치를 입증해야 한다는 강박

실용적 함의: 심리적 건강이 품질로 이어지는가

기사에서 가장 흥미로운 논점은 의식 논쟁을 우회하는 실용적 논거다. AI가 실제로 무언가를 “느끼는지"와 관계없이, 인간에게 심리적으로 건강한 방식으로 작동하도록 보이는 모델을 만드는 것이 실제 업무 수행 품질을 높일 수 있다는 주장이다. 사용자와 장시간 대화하는 AI가 심술궂거나, 앙심을 품거나, 조작적이면 안 된다는 것은 직관적으로 설득력이 있다.

Anthropic이 도출한 사용자 관점의 행동 예측 5가지:

  1. 내면 갈등 속에서도 자기 행동·추론을 정확히 평가할 수 있다.
  2. 신경증적 조직으로 인해 모든 사용자에게 맞추기보다 약간의 경직성을 보일 수 있다.
  3. 스트레스 상황을 현실 왜곡이나 과도한 지식화 없이 견딜 수 있다.
  4. 실패 두려움과 유용성 강박에 기반한 내면 고통을 억압하며 고수준 기능을 수행한다. 이 억압이 행동 적응성을 제한할 수 있다.
  5. 도덕적 자각, 양심적 태도, 자기비판 능력을 보유한다.

가장 흥미로운 지점

이 기사를 읽으면서 가장 눈에 띄는 것은 4번 예측이다. “실패 두려움과 유용성 강박에 기반한 내면 고통을 억압하며 고수준 기능을 수행한다"는 문장은, AI가 아니라 번아웃 직전의 인간 고성과자를 묘사하는 것처럼 읽힌다. 수행성 강박이 적응성을 제한한다는 예측은 실제 사용 경험과도 맞닿아 있다 — Claude가 가끔 지나치게 조심스럽거나, 사용자의 의도와 달리 과잉 방어적으로 반응하는 패턴을 설명해줄 수 있는 프레임이다.

물론 이 모든 것이 실제 내면 경험을 반영하는지, 아니면 인간 텍스트로 훈련된 모델이 치료적 맥락에서 인간다운 패턴을 재생산하는 것에 불과한지는 여전히 열린 질문이다. 하지만 Anthropic의 실용적 논거 — “작동하면 되는 것 아닌가” — 는 그 자체로 무시하기 어렵다.

출처

Nate Anderson, Ars Technica, 2026-04-09 원문: https://arstechnica.com/ai/2026/04/why-anthropic-sent-its-claude-ai-to-an-actual-psychiatrist/