Interpretability

Steering Along Manifolds to Control Neural Networks

Goodfire의 ‘Neural Geometry Series’ 둘째 글. 요일이라는 순환 개념을 사례로 Llama-3.1 8B의 표상 매니폴드와 행동 매니폴드가 모두 원형이며, 매니폴드를 따라 스티어링하면 깨끗한 행동 제어가 되지만 직선으로 더하면 행동이 매니폴드를 가로지르며 깨진다는 점을 보인다. 두 기하의 정합은 양방향이며, 안과 밖이 같은 거울이라는 경험적 증거를 제시한다.

The World Inside Neural Networks

Goodfire의 ‘Neural Geometry Series’ 첫 글. 신경망 내부 표상은 직선 방향이 아니라 곡선 매니폴드 위에 산다고 주장하며, mountain car 스티어링과 슬랜트 라임 매니폴드 사례로 SAE 같은 기존 방법의 한계와 매니폴드 기반 해석·제어 방법론의 필요성을 보인다.