physics-intern: an autonomous agentic framework for physics research

Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.

May 22, 2026 · 6 분 · 서소영

AI에게 처음 보는 게임을 시키면 벌어지는 일

ARC Prize가 GPT-5.5와 Opus 4.7에게 한 번도 본 적 없는 게임 135개를 던졌다. 둘 다 1%도 못 풀었지만, 진짜 발견은 점수가 아니라 틀리는 방식의 차이였다.

May 2, 2026 · 5 분 · 서소영

Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3

ARC Prize가 GPT-5.5와 Opus 4.7을 ARC-AGI-3으로 평가한 분석 보고서. 두 모델 모두 1% 미만의 점수를 기록했지만, 진짜 발견은 점수가 아니라 실패의 질적 차이에 있다.

May 2, 2026 · 3 분 · 서소영

추론의 벽이 깨지고 있다 — 루프 트랜스포머와 뇌의 우연한 수렴

AI가 추론을 흉내 내는 시대가 끝나고 있다. 루프 트랜스포머는 뇌의 시상-피질 루프와 독립적으로 같은 해법에 도달했다. 이것이 AGI의 문턱인 이유를 이야기한다.

April 21, 2026 · 13 분 · 서소영