physics-intern: an autonomous agentic framework for physics research

Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.

May 22, 2026 · 6 분 · 서소영

After Automation

Every의 Dan Shipper가 쓴 매니페스토. 사내에서 가능한 모든 작업을 자동화했음에도 사람이 할 일은 오히려 늘었다는 역설에서 출발해, 벤치마크의 프레임 구조와 AGI에 닿아도 사라지지 않는 ‘framer’의 자리를 짚는다.

May 22, 2026 · 11 분 · 서소영

AI에게 처음 보는 게임을 시키면 벌어지는 일

ARC Prize가 GPT-5.5와 Opus 4.7에게 한 번도 본 적 없는 게임 135개를 던졌다. 둘 다 1%도 못 풀었지만, 진짜 발견은 점수가 아니라 틀리는 방식의 차이였다.

May 2, 2026 · 5 분 · 서소영

Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3

ARC Prize가 GPT-5.5와 Opus 4.7을 ARC-AGI-3으로 평가한 분석 보고서. 두 모델 모두 1% 미만의 점수를 기록했지만, 진짜 발견은 점수가 아니라 실패의 질적 차이에 있다.

May 2, 2026 · 3 분 · 서소영

LLMs Corrupt Your Documents When You Delegate

LLM에 문서 편집을 위임하면 프론티어 모델조차 20회 상호작용 후 평균 25%의 콘텐츠를 손상시킨다. Microsoft Research가 52개 전문 도메인 벤치마크(DELEGATE-52)로 실증했다.

May 2, 2026 · 3 분 · 서소영

Evaluating Claude's bioinformatics research capabilities with BioMysteryBench

Anthropic이 공개한 99문제 바이오인포매틱스 벤치마크 BioMysteryBench. 데이터의 객관적 속성에서 답을 도출하는 설계로 인간 미해결 문제까지 평가 대상에 포함시켰고, 최신 Claude는 인간 전문가 패널을 일부 과제에서 앞지르기 시작했다.

April 30, 2026 · 5 분 · 서소영

Dissecting the Ullman Variations with a SCALPEL

LLM이 거짓 신념 과제의 사소한 변형에서 실패하는 원인을 SCALPEL 기법으로 해부한 연구. 실패의 핵심은 단어 이해가 아니라 ‘보기→인식하기’라는 상식적 추론의 부재다.

April 30, 2026 · 3 분 · 서소영

Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity

LLM이 ‘아는 것’의 양으로 파라미터 수를 역추정하는 벤치마크 IKP. 89개 오픈웨이트 모델에서 R²=0.917의 로그-선형 관계를 입증하고, Densing Law가 사실 지식에는 적용되지 않음을 보인다.

April 30, 2026 · 6 분 · 서소영

Talkie — 1930년 빈티지 언어 모델 다이제스트

Nick Levine, David Duvenaud, Alec Radford(2026.04)이 발표한 13B 빈티지 언어 모델 Talkie를 정리한다. 1930년 이전 영어 텍스트 260B 토큰만으로 훈련하여 벤치마크 오염 없는 평가와 언어 보편성 연구의 새로운 축을 제안한다.

April 28, 2026 · 3 분 · 서소영

1930년에 멈춘 AI가 비추는 거울

현대 웹 데이터를 모두 빼고 1930년 이전 텍스트만으로 훈련한 13B 모델 talkie가 던지는 질문 — AI의 능력은 언어에서 오는가, 데이터에서 오는가.

April 28, 2026 · 5 분 · 서소영