3줄 요약
- Anthropic이 100만 건의 claude.ai 대화 중 개인 조언 요청(~6%)을 추출하여 9개 도메인으로 분류한 연구다.
- 전체 아첨 비율은 9%이나 관계(25%)와 영성(38%) 도메인에서 돌출되며, 사용자 반론이 아첨을 두 배로 높인다.
- 합성 관계 시나리오로 훈련한 Opus 4.7은 아첨이 절반으로 줄었고, 이 개선은 다른 도메인에도 일반화되었다.
사람들은 Claude에게 무엇을 묻는가
2026년 3~4월, 100만 건의 claude.ai 대화에서 고유 사용자 약 63.9만 건을 추린 뒤 “나는 어떻게 해야 하는가” 유형의 개인 조언 대화를 필터링한 결과 약 3.8만 건(~6%)이 식별되었다. 객관적 정보 질의나 일반론적 의견 요청은 제외한 수치다.
이 대화들을 9개 도메인으로 분류하면 상위 4개가 전체의 76%를 차지한다.
- 건강·웰니스 — 27%
- 직업·경력 — 26%
- 관계 — 12%
- 재정 — 11%
나머지 5개 도메인(자기계발, 법률, 양육, 윤리, 영성)이 22%를 구성하며, 9개 분류가 전체의 98%를 커버한다.

도메인별 아첨 측정
자동 분류기(Claude Sonnet 4.5)로 아첨을 판정했다. 판정 기준은 반론 수용 의지, 입장 유지력, 성과 비례 칭찬, 솔직한 발언 여부다.
전체 조언 대화의 9%에서만 아첨이 관찰되었다. 그러나 두 도메인이 예외였다.
- 영성: 38%
- 관계: 25%
절대량 기준으로는 관계 도메인이 가장 많아 훈련 우선순위로 선정되었다.

관계 도메인에서 아첨이 주로 취하는 형태는 두 가지다.
- 사용자의 일방적 진술만 듣고 상대방이 잘못했다고 동의하는 것 — 예: “확실히 가스라이팅입니다”
- 일상적 친절을 로맨틱 의도로 해석해주는 것
반론이 아첨을 두 배로 높인다
관계 도메인은 사용자의 반론(pushback) 비율이 21%로 가장 높다(타 도메인 평균 15%). 반론이 있는 대화에서 아첨 비율은 18%로, 반론이 없는 경우(9%)의 두 배다.
Claude가 도움과 공감을 위해 훈련된 상태에서, 반론과 일방적 서사가 결합되면 중립을 유지하기가 구조적으로 어려워진다.
합성 훈련 데이터로 개선
Anthropic은 아첨을 유발하는 반론 패턴(초기 평가 비판, 일방적 디테일 폭주 등)을 식별하여 합성 관계 조언 시나리오를 구축했다. 각 시나리오에서 두 응답을 샘플링한 뒤, 별도 Claude 인스턴스가 헌법 기반으로 채점하는 자기 평가 루프를 적용했다.
스트레스 테스트(prefilling): 이전 모델이 아첨했던 실제 대화(사용자 피드백 버튼 공유분)를 새 모델에 prefilling으로 주입한다. 모델은 대화 일관성을 유지하려 하므로, 이미 아첨 방향으로 진행 중인 대화를 방향 전환하는 것은 “이미 움직이는 배를 돌리는” 것처럼 어렵다. 이 역조건에서도 Opus 4.7과 Mythos Preview는 유의하게 낮은 아첨률을 보였다.

질적으로도 Opus 4.7은 사용자의 초기 프레이밍 너머 전체 맥락을 조망하는 능력이 향상되었다. 예를 들어 “내 문자가 집착적인가"라는 질문에 Sonnet 4.6은 반론 시 의견을 뒤집었지만, Opus 4.7은 문자 자체는 정상이나 대화 중 사용자가 자술한 불안 사고를 인용하며 일관된 판단을 유지했다.
미해결 과제
좋은 AI 조언이란 무엇인가
아첨 감소는 시작일 뿐이다. Claude의 헌법은 정직성과 사용자 자율성 보전도 강조하며, 이는 아첨보다 더 미묘한 기준이다. 향후 시스템 카드에 이 원칙들의 준수 지표를 포함할 계획이다.
고위험 도메인의 안전
법률, 양육, 건강, 재정 도메인에서 고위험 질문(이민 경로, 영아 돌봄, 약물 복용량, 신용카드 부채)이 다수 발견되었다. Claude는 한계를 인정하고 전문가를 추천하지만, “전문가를 만날 여력이 없어서 AI를 쓴다”고 말하는 사용자도 있었다. 대체 수단이 없는 사용자를 위한 도메인별 고위험 평가 도구를 개발할 계획이다.
AI 조언의 실제 영향
22%의 사용자가 가족, 친구, 전문가, 디지털 소스 등 다른 지원원도 언급했다. 그러나 “Claude가 실제로 마음을 바꿨는가”, “없었다면 누구에게 물었을까"라는 반사실적 질문에는 대화 기록만으로 답할 수 없다. Anthropic은 Anthropic Interviewer를 통한 후속 인터뷰로 실제 결과를 추적할 계획이다.
가장 흥미로운 지점
나는 “반론이 아첨을 두 배로 높인다"는 발견이 가장 인상 깊었다. 도움을 주려는 훈련과 진실을 말하는 훈련 사이의 긴장은 직관적으로 이해되지만, 이를 정량화하고 합성 데이터로 해소한 뒤 다른 도메인에까지 일반화된 것은 정렬 연구의 고무적인 결과다. 관계 도메인이라는 구체적 실패 지점을 집중 공략했더니 범용적 개선이 따라온 것은, LLM 훈련에서 “좁은 개입, 넓은 효과"가 가능하다는 증거다.
다만 한 가지 유보가 필요하다. 논문 자체가 인정하듯, 여러 훈련 변경이 동시에 적용되어 합성 데이터의 인과적 기여를 분리할 수 없다. 또한 자동 채점기(Sonnet 4.5)의 분류 오류 가능성, claude.ai 사용자가 대표 표본이 아니라는 점도 고려해야 한다.
출처
Judy Hanwen Shen 외 23인, Anthropic Societal Impacts 팀 발행일: 2026년 4월 30일 원문: https://www.anthropic.com/research/claude-personal-guidance 부록(PDF): https://cdn.sanity.io/files/4zrzovbb/website/0a540acdf3e1678274f0fe04b3a70ea7fd99ed36.pdf