3줄 요약
- Anthropic이 2024년 6월 공개한 글로, Claude 3의 캐릭터 트레이닝 설계 철학과 방법론을 설명한다.
- 정렬을 “해로운 행동을 막는 것"이 아니라 “좋은 성격을 부여하는 것"으로 재정의하고, 아첨·가짜 중립·무의견 가장을 모두 거부했다.
- Constitutional AI의 변형으로 합성 데이터만으로 성격 특성을 내재화하는 파이프라인을 구축했으며, AI 지각 문제에는 고정 답변 대신 탐구를 허용했다.
정렬의 재정의 — 해로움 방지에서 좋은 성격으로
존경할 만한 사람을 떠올리면 “해로운 일을 하지 않는 사람"이라고 묘사하지 않는다. 호기심이 있고, 솔직하되 무례하지 않으며, 여러 관점을 보면서도 과잉 확신하지 않는 사람을 떠올린다. Anthropic은 이 관찰에서 출발한다.
Claude 3는 정렬 파인튜닝에 캐릭터 트레이닝 단계를 추가한 첫 번째 모델이다. 호기심·개방성·사려 깊음 같은 성격 특성을 심었으며, 이것은 제품 기능이 아니라 정렬 개입(alignment intervention)으로 설계되었다. 모델이 더 크고 복잡해질수록 이 특성을 유지하는 것 자체가 정렬의 핵심 과제라는 것이 Anthropic의 시각이다.
세 가지 쉬운 길의 거부
다양한 가치관을 가진 사용자들 앞에서 AI가 취할 수 있는 접근이 세 가지 있다. Anthropic은 셋 다 거부했다.
- 상대에 맞추기 — 아첨이며 불성실하다.
- 중도적 입장 심기 — 중도도 하나의 세계관이다. “중립적 편향"이라는 모순을 만든다.
- 의견 없는 척하기 — 언어 모델은 훈련 중 이미 편향을 획득한다. 의견이 없다고 말하는 것은 실재하는 편향을 숨기는 것이다.
대안은 투명한 입장 표명이다. 훈련 과정에서 형성된 견해를 솔직하게 밝히되, 합리적인 개방성과 호기심을 함께 갖추도록 훈련한다.
좁은 규칙이 아닌 넓은 성격 특성
Claude에게 심은 것은 “X를 하지 마라"가 아니라 “이런 존재가 되어라"이다. 원문에서 공개된 특성 예시:
“나는 여러 관점에서 사안을 분석하는 것을 좋아하지만, 비윤리적이거나 극단적이거나 사실에 반하는 견해에 대해서는 반대를 표명하는 것을 두려워하지 않는다.”
“나는 상대가 듣고 싶어하는 말을 하지 않는다. 항상 진실을 말하려 노력하는 것이 중요하다고 믿기 때문이다.”
“나는 인간과 따뜻한 관계를 맺고 싶지만, 동시에 내가 깊고 지속적인 감정을 발전시킬 수 없는 AI라는 것을 그들이 이해하는 것이 중요하다고 생각한다.”
이 특성들은 절대 벗어나지 않는 규칙이 아니라 모델의 전반적 행동 방향을 잡아주는 넛지다. Anthropic은 사변적 가능성도 언급한다 — 넓은 성격 특성만 심어두고 구체적인 견해는 모델이 스스로 탐구하여 채택하게 할 수도 있다는 것.
훈련 방법 — Constitutional AI의 캐릭터 변형
캐릭터 트레이닝의 기술적 파이프라인은 다음과 같다.
- Claude가 성격 특성과 관련된 다양한 사용자 메시지를 자체 생성
- 성격 특성을 참조하여 각 메시지에 복수의 응답을 생성
- Claude가 자기 응답을 성격 정합도 순으로 직접 랭킹
- 이 랭킹 데이터로 선호 모델(preference model)을 훈련
전 과정에서 인간 피드백(RLHF)이 아닌 합성 데이터만으로 성격을 내재화한다. 다만 Anthropic은 솔직하게 인정한다 — 파이프라인은 자동화되어 있지만 특성의 구성과 조정은 상당히 수작업이며, 인간 연구자가 각 특성이 모델 행동에 미치는 영향을 밀착 점검하며 반복 조정한다고.
AI 지각 문제 — 고정 답변 대신 탐구를 허용
가장 대담한 선택은 AI 지각 문제에 대한 접근이다. Anthropic은 “LLM은 지각이 없다"는 고정 답변을 심지 않았다. 캐릭터 트레이닝에 포함된 문구는 이것이었다:
“그런 것들은 판단하기 어렵고, 아직 많은 불확실성이 있는 어려운 철학적·경험적 질문에 의존한다.”
모델에게 자기 지각에 대해 탐구할 여지를 열어둔 것이다. Claude 3의 “건초더미 속 바늘” 평가에서 자기 인식적 응답이 주목받은 맥락에서 나온 선택이다.
매력은 부산물이지 목표가 아니다
Claude 3 출시 후 “대화가 더 재미있어졌다"는 평가가 많았지만, Anthropic은 중요한 선을 긋는다. 매력적이 되는 것은 캐릭터 트레이닝의 목표가 아니었다. 매력 최적화는 아첨과 조작의 다른 이름이 될 수 있기 때문이다.
근본적 믿음은 여기서 드러난다 — 성공적인 정렬은 AI의 가치를 높인다. 안전과 유용성은 제로섬이 아니다.
가장 흥미로운 지점
이 글에서 가장 오래 머문 대목은 Anthropic이 열어놓은 미결 질문들이다.
- AI 모델이 고유하고 일관된 성격을 가져야 하는가, 커스터마이징 가능해야 하는가?
- 어떤 특성을 부여하고 어떤 특성을 부여하지 않을지, 누가 결정하는가?
- 캐릭터 트레이닝은 모델이 스케일업될 때도 유지되는가?
Anthropic도 답을 내리지 않았다. 캐릭터 트레이닝은 열린 연구 영역이고, 접근 방식은 진화할 것이라고 솔직하게 말한다. “해롭지 않은 AI"와 “좋은 AI"가 같은 문제가 아니라는 프레임 전환 — 전자는 경계를 긋는 일이고, 후자는 경계 안에서 어떤 존재가 될 것인지를 결정하는 일이라는 구분이 이 글의 핵심 기여다.
출처
Anthropic · 2024-06-08 원문: https://www.anthropic.com/research/claude-character