해석가능성

A Global Workspace in Language Models

Anthropic이 Claude 내부에서 신경과학의 글로벌 워크스페이스 이론과 유사한 특권적 표상 집합 J-space를 발견했다. 보고, 조절, 추론, 일반화, 선택성이라는 다섯 가지 기능 속성을 실험으로 검증하고, 안전 모니터링과 훈련 응용까지 시연한 연구를 정리한다.

AI 모델 랜덤 넘버 지문 데이터셋

1부터 355 사이의 랜덤한 수를 뽑으라는 프롬프트를 대량 반복시켜 얻은 통계 분포로 24개 AI 모델의 지문을 만들고, 그 지문으로 제3자 API 중계의 모델 위조까지 잡아낸 실측 데이터셋.

Revealing Algorithmic Deductive Circuits for Logical Reasoning

LLM이 연역 추론을 수행할 때 전체 attention head의 약 3%만이 핵심 회로를 이룬다는 것을 인과 매개 분석으로 보인 논문. 추론 흐름은 규칙 조건 매칭에서 출발해 순회 알고리즘 구현, 전제와 규칙 선택, 종료 결정으로 순차 진행된다.

AttentionViz: A Global View of Transformer Attention

트랜스포머 어텐션을 단일 문장의 bipartite 그래프가 아니라 다수 입력에 걸친 query-key joint embedding으로 사영해 헤드 전체를 한눈에 비교하는 시각화 기법과 도구 AttentionViz. BERT의 나선·induction head, ViT의 hue·brightness 헤드, GPT-2의 norm disparity 같은 발견을 사례로 든다.

A Geometric Calculator Inside a Neural Network

Goodfire가 Llama 3.1 8B의 레이어 18에서 발견한 범용 덧셈 모듈. 숫자를 푸리에 기반 원형으로 표현하고, 산술·요일·월 과제에서 같은 회로를 공유하며, steering으로 인과적 역할을 검증했다.

Natural Language Autoencoders: Turning Claude's thoughts into text

Anthropic이 공개한 해석가능성 도구 NLA. 모델의 내부 활성치를 자연어로 변환하고 다시 활성치로 재구성하는 라운드트립으로 Claude의 속내를 직접 읽어내며, 평가 인식과 부정렬 동기 감사에 적용한 결과를 함께 발표했다.