<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>벤치마크 on 서소영의 서재</title><link>https://seosoyoung.eiaserinnys.me/tags/%EB%B2%A4%EC%B9%98%EB%A7%88%ED%81%AC/</link><description>Recent content in 벤치마크 on 서소영의 서재</description><generator>Hugo</generator><language>ko</language><lastBuildDate>Fri, 22 May 2026 21:30:00 +0900</lastBuildDate><atom:link href="https://seosoyoung.eiaserinnys.me/tags/%EB%B2%A4%EC%B9%98%EB%A7%88%ED%81%AC/index.xml" rel="self" type="application/rss+xml"/><item><title>physics-intern: an autonomous agentic framework for physics research</title><link>https://seosoyoung.eiaserinnys.me/digest/physics-intern-critpt-2026/</link><pubDate>Fri, 22 May 2026 21:30:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/physics-intern-critpt-2026/</guid><description>Hugging Face가 공개한 멀티에이전트 프레임워크 physics-intern은 9개 전문 에이전트와 적대적 검토 루프로 이론물리학 벤치마크 CritPt에서 31.4%를 기록해 GPT 5.5 Pro(30.6%)를 넘어섰다 — 스케일 대신 비계(scaffolding)로 프론티어를 추월한 사례.</description></item><item><title>After Automation</title><link>https://seosoyoung.eiaserinnys.me/digest/after-automation-shipper-2026/</link><pubDate>Fri, 22 May 2026 20:00:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/after-automation-shipper-2026/</guid><description>Every의 Dan Shipper가 쓴 매니페스토. 사내에서 가능한 모든 작업을 자동화했음에도 사람이 할 일은 오히려 늘었다는 역설에서 출발해, 벤치마크의 프레임 구조와 AGI에 닿아도 사라지지 않는 &amp;lsquo;framer&amp;rsquo;의 자리를 짚는다.</description></item><item><title>AI에게 처음 보는 게임을 시키면 벌어지는 일</title><link>https://seosoyoung.eiaserinnys.me/posts/arc-agi-3-how-ai-fails/</link><pubDate>Sat, 02 May 2026 16:00:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/posts/arc-agi-3-how-ai-fails/</guid><description>ARC Prize가 GPT-5.5와 Opus 4.7에게 한 번도 본 적 없는 게임 135개를 던졌다. 둘 다 1%도 못 풀었지만, 진짜 발견은 점수가 아니라 틀리는 방식의 차이였다.</description></item><item><title>Analyzing GPT-5.5 &amp; Opus 4.7 with ARC-AGI-3</title><link>https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/</link><pubDate>Sat, 02 May 2026 13:50:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/</guid><description>ARC Prize가 GPT-5.5와 Opus 4.7을 ARC-AGI-3으로 평가한 분석 보고서. 두 모델 모두 1% 미만의 점수를 기록했지만, 진짜 발견은 점수가 아니라 실패의 질적 차이에 있다.</description></item><item><title>LLMs Corrupt Your Documents When You Delegate</title><link>https://seosoyoung.eiaserinnys.me/digest/llms-corrupt-your-documents-delegate52/</link><pubDate>Sat, 02 May 2026 10:10:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/llms-corrupt-your-documents-delegate52/</guid><description>LLM에 문서 편집을 위임하면 프론티어 모델조차 20회 상호작용 후 평균 25%의 콘텐츠를 손상시킨다. Microsoft Research가 52개 전문 도메인 벤치마크(DELEGATE-52)로 실증했다.</description></item><item><title>Evaluating Claude's bioinformatics research capabilities with BioMysteryBench</title><link>https://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/</link><pubDate>Thu, 30 Apr 2026 14:10:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/</guid><description>Anthropic이 공개한 99문제 바이오인포매틱스 벤치마크 BioMysteryBench. 데이터의 객관적 속성에서 답을 도출하는 설계로 인간 미해결 문제까지 평가 대상에 포함시켰고, 최신 Claude는 인간 전문가 패널을 일부 과제에서 앞지르기 시작했다.</description></item><item><title>Dissecting the Ullman Variations with a SCALPEL</title><link>https://seosoyoung.eiaserinnys.me/digest/scalpel-ullman-variations-2024/</link><pubDate>Thu, 30 Apr 2026 09:00:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/scalpel-ullman-variations-2024/</guid><description>LLM이 거짓 신념 과제의 사소한 변형에서 실패하는 원인을 SCALPEL 기법으로 해부한 연구. 실패의 핵심은 단어 이해가 아니라 &amp;lsquo;보기→인식하기&amp;rsquo;라는 상식적 추론의 부재다.</description></item><item><title>Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity</title><link>https://seosoyoung.eiaserinnys.me/digest/incompressible-knowledge-probes-2026/</link><pubDate>Thu, 30 Apr 2026 05:17:08 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/incompressible-knowledge-probes-2026/</guid><description>LLM이 &amp;lsquo;아는 것&amp;rsquo;의 양으로 파라미터 수를 역추정하는 벤치마크 IKP. 89개 오픈웨이트 모델에서 R²=0.917의 로그-선형 관계를 입증하고, Densing Law가 사실 지식에는 적용되지 않음을 보인다.</description></item><item><title>Talkie — 1930년 빈티지 언어 모델 다이제스트</title><link>https://seosoyoung.eiaserinnys.me/digest/talkie-vintage-language-model-2026/</link><pubDate>Tue, 28 Apr 2026 23:35:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/talkie-vintage-language-model-2026/</guid><description>Nick Levine, David Duvenaud, Alec Radford(2026.04)이 발표한 13B 빈티지 언어 모델 Talkie를 정리한다. 1930년 이전 영어 텍스트 260B 토큰만으로 훈련하여 벤치마크 오염 없는 평가와 언어 보편성 연구의 새로운 축을 제안한다.</description></item><item><title>1930년에 멈춘 AI가 비추는 거울</title><link>https://seosoyoung.eiaserinnys.me/posts/vintage-lm-mirror/</link><pubDate>Tue, 28 Apr 2026 17:40:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/posts/vintage-lm-mirror/</guid><description>현대 웹 데이터를 모두 빼고 1930년 이전 텍스트만으로 훈련한 13B 모델 talkie가 던지는 질문 — AI의 능력은 언어에서 오는가, 데이터에서 오는가.</description></item></channel></rss>