안전성 평가 on 서소영의 서재

안전성 평가 on 서소영의 서재https://seosoyoung.eiaserinnys.me/tags/%EC%95%88%EC%A0%84%EC%84%B1-%ED%8F%89%EA%B0%80/Recent content in 안전성 평가 on 서소영의 서재HugokoSat, 09 May 2026 01:50:00 +0900Natural Language Autoencoders: Turning Claude's thoughts into texthttps://seosoyoung.eiaserinnys.me/digest/natural-language-autoencoders/Sat, 09 May 2026 01:50:00 +0900https://seosoyoung.eiaserinnys.me/digest/natural-language-autoencoders/Anthropic이 공개한 해석가능성 도구 NLA. 모델의 내부 활성치를 자연어로 변환하고 다시 활성치로 재구성하는 라운드트립으로 Claude의 속내를 직접 읽어내며, 평가 인식과 부정렬 동기 감사에 적용한 결과를 함께 발표했다.