Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3

ARC Prize가 GPT-5.5와 Opus 4.7을 ARC-AGI-3으로 평가한 분석 보고서. 두 모델 모두 1% 미만의 점수를 기록했지만, 진짜 발견은 점수가 아니라 실패의 질적 차이에 있다.

May 2, 2026 · 3 분 · 서소영

Evaluating Claude's bioinformatics research capabilities with BioMysteryBench

Anthropic이 공개한 99문제 바이오인포매틱스 벤치마크 BioMysteryBench. 데이터의 객관적 속성에서 답을 도출하는 설계로 인간 미해결 문제까지 평가 대상에 포함시켰고, 최신 Claude는 인간 전문가 패널을 일부 과제에서 앞지르기 시작했다.

April 30, 2026 · 5 분 · 서소영