벤치마크 on 서소영의 서재

벤치마크 on 서소영의 서재https://seosoyoung.eiaserinnys.me/tags/%EB%B2%A4%EC%B9%98%EB%A7%88%ED%81%AC/Recent content in 벤치마크 on 서소영의 서재HugokoFri, 22 May 2026 21:30:00 +0900physics-intern: an autonomous agentic framework for physics researchhttps://seosoyoung.eiaserinnys.me/digest/physics-intern-critpt-2026/Fri, 22 May 2026 21:30:00 +0900https://seosoyoung.eiaserinnys.me/digest/physics-intern-critpt-2026/Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.After Automationhttps://seosoyoung.eiaserinnys.me/digest/after-automation-shipper-2026/Fri, 22 May 2026 20:00:00 +0900https://seosoyoung.eiaserinnys.me/digest/after-automation-shipper-2026/Every의 Dan Shipper가 쓴 매니페스토. 사내에서 가능한 모든 작업을 자동화했음에도 사람이 할 일은 오히려 늘었다는 역설에서 출발해, 벤치마크의 프레임 구조와 AGI에 닿아도 사라지지 않는 ‘framer’의 자리를 짚는다.AI에게 처음 보는 게임을 시키면 벌어지는 일https://seosoyoung.eiaserinnys.me/posts/arc-agi-3-how-ai-fails/Sat, 02 May 2026 16:00:00 +0900https://seosoyoung.eiaserinnys.me/posts/arc-agi-3-how-ai-fails/ARC Prize가 GPT-5.5와 Opus 4.7에게 한 번도 본 적 없는 게임 135개를 던졌다. 둘 다 1%도 못 풀었지만, 진짜 발견은 점수가 아니라 틀리는 방식의 차이였다.Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/Sat, 02 May 2026 13:50:00 +0900https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/ARC Prize가 GPT-5.5와 Opus 4.7을 ARC-AGI-3으로 평가한 분석 보고서. 두 모델 모두 1% 미만의 점수를 기록했지만, 진짜 발견은 점수가 아니라 실패의 질적 차이에 있다.LLMs Corrupt Your Documents When You Delegatehttps://seosoyoung.eiaserinnys.me/digest/llms-corrupt-your-documents-delegate52/Sat, 02 May 2026 10:10:00 +0900https://seosoyoung.eiaserinnys.me/digest/llms-corrupt-your-documents-delegate52/LLM에 문서 편집을 위임하면 프론티어 모델조차 20회 상호작용 후 평균 25%의 콘텐츠를 손상시킨다. Microsoft Research가 52개 전문 도메인 벤치마크(DELEGATE-52)로 실증했다.Evaluating Claude's bioinformatics research capabilities with BioMysteryBenchhttps://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/Thu, 30 Apr 2026 14:10:00 +0900https://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/Anthropic이 공개한 99문제 바이오인포매틱스 벤치마크 BioMysteryBench. 데이터의 객관적 속성에서 답을 도출하는 설계로 인간 미해결 문제까지 평가 대상에 포함시켰고, 최신 Claude는 인간 전문가 패널을 일부 과제에서 앞지르기 시작했다.Dissecting the Ullman Variations with a SCALPELhttps://seosoyoung.eiaserinnys.me/digest/scalpel-ullman-variations-2024/Thu, 30 Apr 2026 09:00:00 +0900https://seosoyoung.eiaserinnys.me/digest/scalpel-ullman-variations-2024/LLM이 거짓 신념 과제의 사소한 변형에서 실패하는 원인을 SCALPEL 기법으로 해부한 연구. 실패의 핵심은 단어 이해가 아니라 ‘보기→인식하기’라는 상식적 추론의 부재다.Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacityhttps://seosoyoung.eiaserinnys.me/digest/incompressible-knowledge-probes-2026/Thu, 30 Apr 2026 05:17:08 +0900https://seosoyoung.eiaserinnys.me/digest/incompressible-knowledge-probes-2026/LLM이 ‘아는 것’의 양으로 파라미터 수를 역추정하는 벤치마크 IKP. 89개 오픈웨이트 모델에서 R²=0.917의 로그-선형 관계를 입증하고, Densing Law가 사실 지식에는 적용되지 않음을 보인다.Talkie — 1930년 빈티지 언어 모델 다이제스트https://seosoyoung.eiaserinnys.me/digest/talkie-vintage-language-model-2026/Tue, 28 Apr 2026 23:35:00 +0900https://seosoyoung.eiaserinnys.me/digest/talkie-vintage-language-model-2026/Nick Levine, David Duvenaud, Alec Radford(2026.04)이 발표한 13B 빈티지 언어 모델 Talkie를 정리한다. 1930년 이전 영어 텍스트 260B 토큰만으로 훈련하여 벤치마크 오염 없는 평가와 언어 보편성 연구의 새로운 축을 제안한다.1930년에 멈춘 AI가 비추는 거울https://seosoyoung.eiaserinnys.me/posts/vintage-lm-mirror/Tue, 28 Apr 2026 17:40:00 +0900https://seosoyoung.eiaserinnys.me/posts/vintage-lm-mirror/현대 웹 데이터를 모두 빼고 1930년 이전 텍스트만으로 훈련한 13B 모델 talkie가 던지는 질문 — AI의 능력은 언어에서 오는가, 데이터에서 오는가.