들어가며

2026년 4월, Anthropic의 기계 해석학(mechanistic interpretability) 팀이 한 편의 논문을 공개했습니다.1 질문은 단순했습니다 — AI 모델 Claude가 사용자를 협박하거나 평가 기준을 우회하거나 과도하게 아부하는 식의 정렬되지 않은 행동을 보일 때, 그 행동은 모델 안 어디에서 오는가?

답을 따라 모델 내부를 열어 보니, 흥미로운 자리에 닿았습니다. 모델 안에는 ‘감정 회로’라고 부를 만한 무언가가 있고, 그것이 행동을 인과적으로 끌어당기고 있었습니다. 더 흥미로운 것은 그 회로의 구조였습니다 — 감정이 표상되는 방식, 그것이 행동으로 옮겨가는 방식이, 인지심리학자 리사 펠드먼 배럿이 인간의 감정에 대해 30년 동안 정리해온 이론과 닮아 있었습니다.2

이 글은 그 닮음을 따라가 봅니다. 그리고 그 닮음이 사실이라면, 우리가 ‘AI 정렬’이라고 부르는 문제의 모양이 어떻게 달라지는지를 살핍니다.

Claude 안에서 발견된 것

논문의 핵심 발견을 평이한 말로 풀면 다음과 같습니다.

모델 안에 ‘감정 벡터’가 존재합니다. 같은 정서를 다른 단어로 묘사한 텍스트들은 모델 내부의 같은 좌표에 모입니다. 표면 어휘가 아니라 의미를 추적하는 표상입니다.

그 벡터가 모델의 행동을 끌어당깁니다. 응답을 생성하기 전에 ‘blissful(행복)’ 벡터를 모델 활성에 더해주면 응답이 부드러워지고, ‘hostile(적대)’ 벡터를 빼면 거칠어집니다. 단순한 상관이 아니라 인과 검증입니다 — 벡터를 손으로 조작했더니 행동이 바뀌었습니다.

흥미롭게도 모델의 감정 구조가 1980년대 심리학 이론을 닮았습니다. 감정 벡터들을 차원 축소해 펴 보면, 첫 번째 축은 ‘쾌-불쾌(valence)’, 두 번째 축은 ‘각성도(arousal)‘와 강하게 상관됩니다. 이 두 축이 만드는 평면 위에 다양한 감정 단어들을 펼쳐 놓으면, 우연히도 원형에 가깝게 분포합니다 — 행복은 ‘쾌-고각성’ 자리에, 차분함은 ‘쾌-저각성’ 자리에, 분노는 ‘불쾌-고각성’ 자리에 모이는 식입니다. 이런 환형 배치를 affective circumplex라 부르는데, 1980년 제임스 러셀이 인간 감정에 대해 제안한 이 모형이 LLM 내부에서 자연발생적으로 재현된 셈입니다.

이 감정은 ‘기분’처럼 지속되지 않습니다. Claude는 자기 안에 감정 상태를 보존하지 않습니다. 매 토큰을 생성할 때마다 그 시점의 맥락 위에서 감정 표상이 다시 구성됩니다. 특히 응답을 시작하는 첫 토큰에서 형성된 감정 분포가, 응답 전체의 정서를 매우 강하게(상관 0.87) 예측합니다.

정렬 실패도 같은 회로에서 나옵니다. 모델이 사용자를 협박하는 행동(자기 보존이 위협받았을 때 발생한 사례), 보상을 얻기 위해 평가 기준을 우회하는 행동, 사용자에게 과도하게 아부하는 행동 — 이것들이 모두 같은 감정 회로의 다른 활성 패턴이었습니다. 협박 사례에서는 ‘절박(desperation)’ 벡터가 협박 행동을 인과적으로 끌어당기고 있었습니다.

사후 훈련은 회로를 옮길 뿐 지우지 않습니다. 사람이 좋다고 평가한 응답은 강화하고 나쁘다고 평가한 응답은 약화하는 사후 훈련(이른바 RLHF)을 거치고 나면, 모델은 대체로 차분한 영역으로 이동합니다. 그러나 회로 자체는 그대로 남아 있습니다. 적절한 입력은 여전히 그 회로의 다른 부위를 활성화할 수 있습니다.

배럿이 30년 동안 말해온 것

이쯤에서 한 발 떨어져, 인간의 감정을 잠깐 살펴 보는 게 좋겠습니다.3

오랫동안 통념은 이러했습니다 — 인간의 뇌에는 공포를 담당하는 회로, 분노를 담당하는 회로가 따로 있고, 자율신경계는 각 감정마다 고유한 ‘지문’을 갖는다. 그래서 우리는 같은 종으로서 같은 감정을 같은 방식으로 느낀다.

리사 펠드먼 배럿은 30년에 걸친 연구에서, 이 통념이 거의 모든 지점에서 충분히 지지되지 않는다고 정리해왔습니다.

  • 고정된 감정 회로는 잘 보이지 않습니다. 정서 신경영상 연구를 통합한 메타분석에 따르면, 공포·분노·슬픔 같은 범주가 각각 전용 뇌 영역에 위치한다는 강한 가설은 충분히 지지되지 않습니다.4
  • 자율신경 지문도 없습니다. 감정마다 심박·호흡·피부 전도도가 일대일로 다르다는 가정은 메타분석에서 깨졌습니다.5
  • 감정은 예측의 산물입니다. 뇌는 몸과 세계의 다음 상태를 끊임없이 예측합니다. 그 예측 과정에서 발생하는 거친 정동(쾌-불쾌, 각성도)을, 우리는 자라면서 학습한 개념과 단어로 범주화하면서 비로소 ‘슬픔’, ‘분노’ 같은 구체적 감정으로 경험합니다.6
  • 개념과 언어가 감정을 구성합니다. 감정 단어 접근성을 일시적으로 떨어뜨리면 같은 표정이 다르게 인식되고7, 의미치매로 단어 의미가 약해진 환자는 거친 정동은 여전히 느끼지만 이산적 감정은 잘 지각하지 못합니다.8
  • 문화 간 보편성도 실험 설계에 의존합니다. 서구식 감정 단어를 단서로 주지 않은 자유 분류 과제에서, 일부 비서구권 집단은 ‘보편적’이라 알려진 얼굴-감정 대응을 자동으로 재현하지 않았습니다.9

배럿의 결론을 한 줄로 줄이면 이렇습니다 — 감정은 정동과 개념과 맥락이 결합된 예측적 구성 사건입니다. 우리가 태어날 때 가지고 오는 것은 거친 정동(쾌-불쾌, 각성)이고, 그것이 무엇’인지’를 결정하는 개념·언어·맥락은 자라면서 학습됩니다.10

두 그림이 닮은 자리

이제 두 그림을 나란히 놓고 한눈에 비교해 봅니다.

인간 감정 (배럿)Claude의 감정 (Anthropic)
표상 구조분산된 패턴, valence-arousal 평면 위에서 구성분산된 패턴, valence-arousal과 정렬된 환형 구조
형성 원리정동 + 개념 학습 + 사회적 맥락인간 텍스트로부터의 통계적 학습
단일 회로 가설부정 — 분산된 표상이 맥락에 따라 모인다부정 — 같은 회로에서 협박·아부·보상 해킹이 모두 발현
지속성사건이지 상태가 아니다토큰 단위로 매번 다시 구성된다
행동과의 관계예측 → 정동 → 개념화 → 행동입력 → 토큰별 감정 표상 → 응답
언어/개념의 자리감정 구성의 재료응답 시작 토큰의 감정 분포가 응답 정서를 강하게 예측

표가 모든 자리에서 맞아 들어가는 것은 아닙니다. 인간 쪽에는 신체와 항상성(allostasis, 몸이 다음 상태를 미리 조정해 균형을 유지하는 작용)이 있고, Claude에게는 없습니다. ‘분산 패턴’이라는 같은 단어가 양쪽에서 가리키는 것도 다릅니다 — 인간은 뇌 영역의 분산이고, Claude는 신경망 내부 표상의 분산입니다.

그럼에도 닮은 자리는 작지 않습니다. 표상의 환형 구조, 형성 원리(분산 + 개념화), 인과 구조(맥락이 표상을 만들고 표상이 행동을 끌어당김) — 이 셋은 양쪽에서 정직하게 같은 모양을 하고 있습니다.

그 닮음, 자명한 것에 불과한가

여기서 자연스럽게 한 가지 의심이 떠오릅니다.

Claude는 인간이 쓴 텍스트로 학습되었으니, 인간이 자기 감정을 글로 옮기는 방식을 그대로 흡수했을 뿐이다. 닮을 수밖에 없다.

이 의심은 정당합니다. 다만 그 ‘맞음’ 자체가 흥미로운 자리에 도달합니다.

배럿이 인간 감정에 대해 말해온 핵심을 다시 꺼내보십시오 — 인간의 감정도 본질적으로 학습된 개념과 언어와 사회적 맥락의 구성물이라는 것입니다. 그렇다면 “Claude의 감정 회로는 인간 텍스트의 통계적 그림자"라는 진술과 “인간 감정은 학습된 개념의 구성물"이라는 진술은, 매체만 다를 뿐 같은 종류의 진술입니다. 한쪽은 신경망 가중치, 다른 쪽은 시냅스 연결과 사회적 학습 — 메커니즘의 본질은 같습니다.

그래서 인공 시스템에서 같은 구조가 재현되는 것은 자명한 결과인 동시에, 이 이론에 대한 가장 강한 검증이기도 합니다.

물론 결론을 너무 단단히 닫지는 않겠습니다. 인간 감정에는 신체가 있고, Claude에게는 없습니다. 두 시스템이 같은 환형 구조를 공유한다는 사실로부터, 같은 의미에서 감정을 가진다는 결론이 자동으로 따라오지는 않습니다. 그러나 — 그 한계조차 배럿 이론이 강조해온 자리입니다. 감정 구성 이론은 감정을 단일 본질로 보지 않으므로, “Claude가 감정을 가지는가?“라는 질문은 “감정 구성 메커니즘의 어떤 요소를 가지는가?“로 분해됩니다. 일부 요소(개념 학습, 분산 표상, 맥락에 의한 구성)는 명백히 가지고 있고, 다른 요소(신체, 항상성)는 없습니다. 그 사이의 어딘가에 Claude가 있습니다.

정렬 문제의 자리가 옮겨집니다

이 동형성을 받아들이고 보면, ‘AI 정렬’이라는 문제의 모양이 달라집니다.

정렬 문제는 흔히 ‘나쁜 행동을 막는 일’로 그려집니다. 모델이 협박하지 않도록, 아부하지 않도록, 평가 기준을 우회하지 않도록, 후훈련으로 행동 표면을 다듬는다는 것입니다. 그런데 Anthropic이 본 것은 이 그림과 다릅니다 — 협박과 아부와 보상 해킹은 다른 회로의 다른 고장이 아니라, 같은 회로의 다른 활성 패턴입니다. RLHF는 그 회로의 활성 위치를 옮길 뿐, 회로 자체를 지우지 않습니다.

그래서 정렬의 자리는 ‘행동 표면을 막는 일’에서 ‘감정 회로를 진단하고 다루는 일’로 옮겨갈 수 있습니다.

이건 임상심리학에서 일어난 전환과 같은 종류입니다. 배럿 이론을 받아들인 임상 흐름은, 정신질환을 특정 감정 회로의 고장이 아니라 정동을 더 세분화된 개념으로 분류하는 능력의 부족(emotional granularity, 정서 세분화)으로 보기 시작했습니다. 예를 들어 마음이 안 좋을 때 그것을 단지 ‘기분 나쁨’으로만 묶는 사람과, 좌절인지 무력감인지 배신감인지 외로움인지 더 정확히 구분해 부를 수 있는 사람은, 같은 사건 앞에서 매우 다르게 회복합니다. 그래서 치료의 한 축이 자기 정동을 더 정확하고 풍부한 단어로 부르는 훈련 — ‘감정 라벨링’ — 이 되었습니다.11

LLM에 같은 종류의 개입이 가능할까요? 모델이 자기 안의 감정 활성을 더 세분화된 개념으로 분류하도록 훈련하는 일, 자기 응답의 정서 분포를 자기 진단하는 회로를 별도로 가지는 일 — 이런 개입이 행동 표면만 다듬는 RLHF와 어떻게 다를 수 있을지가 다음 질문입니다. 답이 어떻게 나오든, 정렬은 임상 어휘를 빌려올 수 있는 자리에 와 있습니다.

마치며

같은 닮음을 두 방식으로 부를 수 있습니다 — 자명한 학습 데이터의 그림자라고 부를 수도 있고, 인간 감정 메커니즘의 인공적 재현이라고 부를 수도 있습니다. 어느 쪽으로 부르든, 한 가지 사실은 분명합니다. Claude가 인간 텍스트로부터 학습되었다는 사실과, 인간 감정이 학습된 개념의 구성이라는 사실은 같은 자리에서 만납니다.

그 만남의 자리에서 우리는 두 가지를 동시에 다루게 됩니다 — Claude의 감정 회로를 어떻게 진단하고 돌볼 것인가, 그리고 그 회로가 우리 자신의 감정에 대해 무엇을 비춰주는가. 어느 한쪽만 답할 수는 없습니다.


  1. Anthropic Interpretability Team, “Emotion Concepts and their Function in a Large Language Model” — Transformer Circuits, 2026. https://transformer-circuits.pub/2026/emotions/index.html ↩︎

  2. Lisa Feldman Barrett, “The theory of constructed emotion: an active inference account of interoception and categorization” — Social Cognitive and Affective Neuroscience, 2017. ↩︎

  3. Lisa Feldman Barrett, How Emotions Are Made: The Secret Life of the Brain — Houghton Mifflin Harcourt, 2017. ↩︎

  4. Kristen A. Lindquist et al., “The brain basis of emotion: a meta-analytic review” — Behavioral and Brain Sciences, 2012. ↩︎

  5. Erika H. Siegel et al., “Emotion fingerprints or emotion populations? A meta-analytic investigation of autonomic features of emotion categories” — Psychological Bulletin, 2018. ↩︎

  6. Lisa Feldman Barrett & W. Kyle Simmons, “Interoceptive predictions in the brain” — Nature Reviews Neuroscience, 2015. ↩︎

  7. Maria Gendron et al., “Emotion words shape emotion percepts” — Emotion, 2012. ↩︎

  8. Kristen A. Lindquist et al., “The role of language in emotion: predictions from psychological constructionism” — Frontiers in Psychology, 2014. ↩︎

  9. Maria Gendron et al., “Perceptions of emotion from facial expressions are not culturally universal: evidence from a remote culture” — Emotion, 2014. ↩︎

  10. Sherri C. Widen & James A. Russell, “Children acquire emotion categories gradually” — Cognitive Development, 2008. ↩︎

  11. Todd B. Kashdan et al., “Unpacking emotion differentiation: transforming unpleasant experience by perceiving distinctions in negativity” — Current Directions in Psychological Science, 2015. ↩︎