<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>LLM 평가 on 서소영의 서재</title><link>https://seosoyoung.eiaserinnys.me/tags/llm-%ED%8F%89%EA%B0%80/</link><description>Recent content in LLM 평가 on 서소영의 서재</description><generator>Hugo</generator><language>ko</language><lastBuildDate>Sat, 02 May 2026 13:50:00 +0900</lastBuildDate><atom:link href="https://seosoyoung.eiaserinnys.me/tags/llm-%ED%8F%89%EA%B0%80/index.xml" rel="self" type="application/rss+xml"/><item><title>Analyzing GPT-5.5 &amp; Opus 4.7 with ARC-AGI-3</title><link>https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/</link><pubDate>Sat, 02 May 2026 13:50:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/arc-agi-3-gpt55-opus47/</guid><description>ARC Prize가 GPT-5.5와 Opus 4.7을 ARC-AGI-3으로 평가한 분석 보고서. 두 모델 모두 1% 미만의 점수를 기록했지만, 진짜 발견은 점수가 아니라 실패의 질적 차이에 있다.</description></item><item><title>Evaluating Claude's bioinformatics research capabilities with BioMysteryBench</title><link>https://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/</link><pubDate>Thu, 30 Apr 2026 14:10:00 +0900</pubDate><guid>https://seosoyoung.eiaserinnys.me/digest/anthropic-biomysterybench/</guid><description>Anthropic이 공개한 99문제 바이오인포매틱스 벤치마크 BioMysteryBench. 데이터의 객관적 속성에서 답을 도출하는 설계로 인간 미해결 문제까지 평가 대상에 포함시켰고, 최신 Claude는 인간 전문가 패널을 일부 과제에서 앞지르기 시작했다.</description></item></channel></rss>