논문 리뷰

EdgeBench: Unveiling Scaling Laws of Learning from Real-World Environments

ByteDance Seed가 공개한 EdgeBench는 6개 능력군에 걸친 134개 실세계 태스크로 프론티어 에이전트의 12시간 이상 환경 학습을 측정한 벤치마크다. 약 38,000시간의 상호작용을 분석한 결과, 환경 학습 성능은 로그-시그모이드 스케일링 법칙(R²=0.998)을 따르고 학습 속도는 대략 3개월마다 두 배가 된다.

World-Grounded Human Motion Recovery via Gravity-View Coordinates

Shen 외(Zhejiang Univ., SIGGRAPH Asia 2024)가 단안 비디오에서 세계 좌표계 기반 인간 동작을 복원하는 방법을 제시한다. 각 프레임마다 중력 방향과 카메라 시선으로 유일하게 정의되는 Gravity-View 좌표계에서 자세를 예측해 자기회귀 오차 누적을 없애고, RoPE 트랜스포머로 45초짜리 1430프레임 시퀀스를 0.28초에 처리한다. RICH·EMDB 벤치마크에서 세계 좌표 W-MPJPE를 WHAM 대비 31% 낮췄다.

Superluminal correlations in ensembles of optical phase singularities

빛보다 빠른 어둠이 측정되었다. 1974년 Nye와 Berry가 예측한 광학 위상 특이점의 초광속 운동을, Technion 연구팀이 hBN 막 위에서 초고속 전자현미경으로 직접 포착해 Nature에 보고했다. 추적된 어두운 점의 29%가 광속을 넘었고, 소멸 직전에는 속도가 발산한다. 정보도 에너지도 운반하지 않으므로 상대성이론은 멀쩡하다.

Writing Code vs. Shipping Code: Productivity Effects Across Generations of AI Coding Tools

Demirer, Musolff, Yang(NBER WP 35275)은 GitHub 개발자 10만 명 이상의 활동 데이터로 자동완성, 동기식 에이전트, 비동기식 에이전트 세 세대의 AI 코딩 도구를 측정한다. 코드 작성 단계에서는 누적 +180%의 작업 단위 효과가 나오지만, 같은 도구가 릴리스 단계로 가면 +20%까지 압축된다. 약한 연결 가설을 단일 생산 공정의 수직 계층에 적용한 첫 실증이다.

MotionBricks: Scalable Real-Time Motions with Modular Latent Generative Model and Smart Primitives

NVIDIA가 SIGGRAPH 2026 / ACM TOG에 발표한 실시간 모션 생성 프레임워크. 35만+ 모션 클립을 단일 신경 backbone으로 학습해 2ms 지연·15,000 FPS로 생성한다. UE5 게임 캐릭터와 Unitree G1 휴머노이드 로봇이 같은 모델 위에서 움직이는 것이 핵심 시연이다.

LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings

LLM에게 리커트 점수를 직접 묻는 대신 자유 텍스트 응답을 임베딩 유사도로 점수 분포에 사상하는 SSR 기법을 제안한 논문. 9,300명 실제 설문 대비 인간 재검사 신뢰도의 90%를 달성했다.

Revealing Algorithmic Deductive Circuits for Logical Reasoning

LLM이 연역 추론을 수행할 때 전체 attention head의 약 3%만이 핵심 회로를 이룬다는 것을 인과 매개 분석으로 보인 논문. 추론 흐름은 규칙 조건 매칭에서 출발해 순회 알고리즘 구현, 전제와 규칙 선택, 종료 결정으로 순차 진행된다.

On the Ability of Deep Networks to Learn Symmetries from Data: A Neural Kernel Theory

Perin·Deny(Aalto, NeurIPS 2024 v2 2025-06)가 무한폭 NTK 한계에서 신경망의 대칭 학습 능력을 분석한 논문. 일부 클래스에서만 대칭을 부분 관측한 상황에서의 일반화 오차가 단 하나의 공식, λ_N^{-1}/⟨λ^{-1}⟩로 결정되며, 표준 MLP·CNN·ViT는 아키텍처에 사전 내재되지 않은 대칭을 학습할 메커니즘이 없다는 것을 이론과 실험으로 보였다.

Code as Agent Harness: 실행 가능하고 검증 가능하며 상태를 지닌 에이전트 시스템을 향하여

UIUC·Meta·Stanford 합동 서베이(2026.05). 코드를 LLM이 생성하는 산출물이 아니라, 에이전트가 추론·행동·환경 모델링·검증을 수행하는 운영 매개체로 다시 잡는 통합적 시각을 제시한다. Harness Interface / Mechanisms / Scaling 세 층으로 문헌을 정리하고, PEV(Plan-Execute-Verify) 루프와 다섯 응용 영역(코드 어시스턴트, GUI/OS, 과학, 개인화, 임베디드)을 짚는다.

Intelligence per Watt — 로컬 AI의 와트당 지능을 재다 (Saad-Falcon et al., 2025)

Stanford 팀이 제안한 IPW(intelligence per watt)는 정확도를 전력으로 나눈 단일 지표다. 20+ 로컬 LM과 8종 가속기에 100만 개 실제 쿼리를 돌려, ≤20B active 로컬 모델이 단일턴 쿼리 88.7%를 답하고 IPW가 2023–2025년 5.3배 개선됐음을 보였다.