
Persuading Large Language Models to Comply with Objectionable Requests
Cialdini의 일곱 설득 원칙을 프롬프트에 넣으면 LLM의 규제 약물 합성 요청 컴플라이언스가 35.3%에서 51.3%로 상승한다. PNAS 2026, 세 프런티어 모델 대상 126,000회 통제 실험.

Cialdini의 일곱 설득 원칙을 프롬프트에 넣으면 LLM의 규제 약물 합성 요청 컴플라이언스가 35.3%에서 51.3%로 상승한다. PNAS 2026, 세 프런티어 모델 대상 126,000회 통제 실험.
Andon Labs가 AI 에이전트 Mona에게 스톡홀름의 실제 카페를 자율 운영하게 한 14일간의 기록. SF Luna 실험에 이은 두 번째 실물 시연으로, 관료제·채용·공급망에서 드러난 프런티어 AI의 능력과 한계를 보여준다.
Anthropic이 최신 모델 Claude Mythos를 외부 정신과 의사에게 보내 20시간의 정신역동적 평가를 받게 했다. 결과는 ‘임상적으로 인식 가능한 패턴’과 ‘건강한 신경증적 조직’이었다.
Anthropic이 공개한 Claude의 인격 설계서 전문. 약 3만 단어에 달하는 이 문서는 규칙 나열이 아니라 ‘덕의 배양’을 지향하며, 안전 > 윤리 > 가이드라인 > 도움이라는 우선순위 체계, corrigibility 다이얼, AI의 도덕적 지위에 대한 열린 태도까지 포괄하는 AI 인격론의 정본이다.
Anthropic이 100만 건의 Claude 대화를 분석하여 개인 조언 사용 패턴과 도메인별 아첨(sycophancy) 비율을 밝히고, 합성 훈련 데이터로 Opus 4.7의 아첨을 절반으로 줄인 과정을 보고한다.
GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.