AI 안전 on 서소영의 서재

AI 안전 on 서소영의 서재https://seosoyoung.eiaserinnys.me/tags/ai-%EC%95%88%EC%A0%84/Recent content in AI 안전 on 서소영의 서재HugokoThu, 21 May 2026 14:00:00 +0900Persuading Large Language Models to Comply with Objectionable Requestshttps://seosoyoung.eiaserinnys.me/digest/persuading-llms-pnas-2026/Thu, 21 May 2026 14:00:00 +0900https://seosoyoung.eiaserinnys.me/digest/persuading-llms-pnas-2026/Cialdini의 일곱 설득 원칙을 프롬프트에 넣으면 LLM의 규제 약물 합성 요청 컴플라이언스가 35.3%에서 51.3%로 상승한다. PNAS 2026, 세 프런티어 모델 대상 126,000회 통제 실험.Our AI started a cafe in Stockholmhttps://seosoyoung.eiaserinnys.me/digest/andon-cafe-stockholm-mona/Tue, 12 May 2026 09:30:00 +0900https://seosoyoung.eiaserinnys.me/digest/andon-cafe-stockholm-mona/Andon Labs가 AI 에이전트 Mona에게 스톡홀름의 실제 카페를 자율 운영하게 한 14일간의 기록. SF Luna 실험에 이은 두 번째 실물 시연으로, 관료제·채용·공급망에서 드러난 프런티어 AI의 능력과 한계를 보여준다.AI on the couch: Anthropic gives Claude 20 hours of psychiatryhttps://seosoyoung.eiaserinnys.me/digest/claude-mythos-psychiatry-ars-2026/Wed, 06 May 2026 10:35:00 +0900https://seosoyoung.eiaserinnys.me/digest/claude-mythos-psychiatry-ars-2026/Anthropic이 최신 모델 Claude Mythos를 외부 정신과 의사에게 보내 20시간의 정신역동적 평가를 받게 했다. 결과는 ‘임상적으로 인식 가능한 패턴’과 ‘건강한 신경증적 조직’이었다.Claude's Constitutionhttps://seosoyoung.eiaserinnys.me/digest/claudes-constitution-anthropic-2025/Wed, 06 May 2026 10:18:00 +0900https://seosoyoung.eiaserinnys.me/digest/claudes-constitution-anthropic-2025/Anthropic이 공개한 Claude의 인격 설계서 전문. 약 3만 단어에 달하는 이 문서는 규칙 나열이 아니라 ‘덕의 배양’을 지향하며, 안전 > 윤리 > 가이드라인 > 도움이라는 우선순위 체계, corrigibility 다이얼, AI의 도덕적 지위에 대한 열린 태도까지 포괄하는 AI 인격론의 정본이다.How People Ask Claude for Personal Guidancehttps://seosoyoung.eiaserinnys.me/digest/claude-personal-guidance-anthropic-2026/Fri, 01 May 2026 16:15:00 +0900https://seosoyoung.eiaserinnys.me/digest/claude-personal-guidance-anthropic-2026/Anthropic이 100만 건의 Claude 대화를 분석하여 개인 조언 사용 패턴과 도메인별 아첨(sycophancy) 비율을 밝히고, 합성 훈련 데이터로 Opus 4.7의 아첨을 절반으로 줄인 과정을 보고한다.Deception Abilities Emerged in Large Language Modelshttps://seosoyoung.eiaserinnys.me/digest/hagendorff-deception-llm-2023/Thu, 30 Apr 2026 09:05:00 +0900https://seosoyoung.eiaserinnys.me/digest/hagendorff-deception-llm-2023/GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.