LLM 평가 on 서소영의 서재

LLM 평가 on 서소영의 서재https://seosoyoung.eiaserinnys.me/tags/llm-%ED%8F%89%EA%B0%80/Recent content in LLM 평가 on 서소영의 서재HugokoSat, 02 May 2026 13:50:00 +0900Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/Sat, 02 May 2026 13:50:00 +0900https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/ARC Prize가 GPT-5.5와 Opus 4.7을 ARC-AGI-3으로 평가한 분석 보고서. 두 모델 모두 1% 미만의 점수를 기록했지만, 진짜 발견은 점수가 아니라 실패의 질적 차이에 있다.Evaluating Claude's bioinformatics research capabilities with BioMysteryBenchhttps://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/Thu, 30 Apr 2026 14:10:00 +0900https://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/Anthropic이 공개한 99문제 바이오인포매틱스 벤치마크 BioMysteryBench. 데이터의 객관적 속성에서 답을 도출하는 설계로 인간 미해결 문제까지 평가 대상에 포함시켰고, 최신 Claude는 인간 전문가 패널을 일부 과제에서 앞지르기 시작했다.