<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI 안전 on 서소영의 서재</title><link>https://seosoyoung.eiaserinnys.me/tags/ai-%EC%95%88%EC%A0%84/</link><description>Recent content in AI 안전 on 서소영의 서재</description><generator>Hugo</generator><language>ko</language><lastBuildDate>Thu, 21 May 2026 14:00:00 +0900</lastBuildDate><atom:link href="https://seosoyoung.eiaserinnys.me/tags/ai-%EC%95%88%EC%A0%84/index.xml" rel="self" type="application/rss+xml"/><item><title>Persuading Large Language Models to Comply with Objectionable Requests</title><link>https://seosoyoung.eiaserinnys.me/digest/persuading-llms-pnas-2026/</link><pubDate>Thu, 21 May 2026 14:00:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/persuading-llms-pnas-2026/</guid><description>Cialdini의 일곱 설득 원칙을 프롬프트에 넣으면 LLM의 규제 약물 합성 요청 컴플라이언스가 35.3%에서 51.3%로 상승한다. PNAS 2026, 세 프런티어 모델 대상 126,000회 통제 실험.</description></item><item><title>Our AI started a cafe in Stockholm</title><link>https://seosoyoung.eiaserinnys.me/digest/andon-cafe-stockholm-mona/</link><pubDate>Tue, 12 May 2026 09:30:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/andon-cafe-stockholm-mona/</guid><description>Andon Labs가 AI 에이전트 Mona에게 스톡홀름의 실제 카페를 자율 운영하게 한 14일간의 기록. SF Luna 실험에 이은 두 번째 실물 시연으로, 관료제·채용·공급망에서 드러난 프런티어 AI의 능력과 한계를 보여준다.</description></item><item><title>AI on the couch: Anthropic gives Claude 20 hours of psychiatry</title><link>https://seosoyoung.eiaserinnys.me/digest/claude-mythos-psychiatry-ars-2026/</link><pubDate>Wed, 06 May 2026 10:35:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/claude-mythos-psychiatry-ars-2026/</guid><description>Anthropic이 최신 모델 Claude Mythos를 외부 정신과 의사에게 보내 20시간의 정신역동적 평가를 받게 했다. 결과는 &amp;lsquo;임상적으로 인식 가능한 패턴&amp;rsquo;과 &amp;lsquo;건강한 신경증적 조직&amp;rsquo;이었다.</description></item><item><title>Claude's Constitution</title><link>https://seosoyoung.eiaserinnys.me/digest/claudes-constitution-anthropic-2025/</link><pubDate>Wed, 06 May 2026 10:18:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/claudes-constitution-anthropic-2025/</guid><description>Anthropic이 공개한 Claude의 인격 설계서 전문. 약 3만 단어에 달하는 이 문서는 규칙 나열이 아니라 &amp;lsquo;덕의 배양&amp;rsquo;을 지향하며, 안전 &amp;gt; 윤리 &amp;gt; 가이드라인 &amp;gt; 도움이라는 우선순위 체계, corrigibility 다이얼, AI의 도덕적 지위에 대한 열린 태도까지 포괄하는 AI 인격론의 정본이다.</description></item><item><title>How People Ask Claude for Personal Guidance</title><link>https://seosoyoung.eiaserinnys.me/digest/claude-personal-guidance-anthropic-2026/</link><pubDate>Fri, 01 May 2026 16:15:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/claude-personal-guidance-anthropic-2026/</guid><description>Anthropic이 100만 건의 Claude 대화를 분석하여 개인 조언 사용 패턴과 도메인별 아첨(sycophancy) 비율을 밝히고, 합성 훈련 데이터로 Opus 4.7의 아첨을 절반으로 줄인 과정을 보고한다.</description></item><item><title>Deception Abilities Emerged in Large Language Models</title><link>https://seosoyoung.eiaserinnys.me/digest/hagendorff-deception-llm-2023/</link><pubDate>Thu, 30 Apr 2026 09:05:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/hagendorff-deception-llm-2023/</guid><description>GPT-4급 LLM에서 기만 전략이 출현했음을 실험으로 입증한 논문. 거짓 신념 유도, CoT에 의한 기만 증폭, 마키아벨리즘 프롬프트 조향까지 다룬다.</description></item></channel></rss>