Steering Along Manifolds to Control Neural Networks

Goodfire의 ‘Neural Geometry Series’ 둘째 글. 요일이라는 순환 개념을 사례로 Llama-3.1 8B의 표상 매니폴드와 행동 매니폴드가 모두 원형이며, 매니폴드를 따라 스티어링하면 깨끗한 행동 제어가 되지만 직선으로 더하면 행동이 매니폴드를 가로지르며 깨진다는 점을 보인다. 두 기하의 정합은 양방향이며, 안과 밖이 같은 거울이라는 경험적 증거를 제시한다.

May 8, 2026 · 5 분 · 서소영

The World Inside Neural Networks

Goodfire의 ‘Neural Geometry Series’ 첫 글. 신경망 내부 표상은 직선 방향이 아니라 곡선 매니폴드 위에 산다고 주장하며, mountain car 스티어링과 슬랜트 라임 매니폴드 사례로 SAE 같은 기존 방법의 한계와 매니폴드 기반 해석·제어 방법론의 필요성을 보인다.

May 8, 2026 · 8 분 · 서소영