Evaluating Claude's bioinformatics research capabilities with BioMysteryBench

3줄 요약

Anthropic Discovery 팀이 발표한 99문제 바이오인포매틱스 벤치마크 BioMysteryBench는, 답을 데이터의 객관적 속성(메타데이터·PCR 검증)에서 도출해 단일 과학자의 주관적 결정에서 평가를 분리한다.
“검증은 도출보다 쉽다"는 원리를 활용해, 인간 전문가 5명이 풀지 못한 23개 human-difficult 문제를 평가 대상에 포함시켰고 — Mythos Preview는 그중 약 30%를 풀었다.
헤드라인 정답률(77.4% → 23.5%) 하락은 사실 신뢰도 붕괴를 과소표현한다. 어려운 문제에서 모델의 정답은 “안다"가 아니라 “운 좋게 한 번 도달한다"에 가깝다.

왜 이 글이 흥미로운가

과학 영역의 LLM 평가는 코딩 영역의 SWE-bench 같은 정본 벤치마크가 아직 없다. Anthropic의 Discovery 팀이 그 공백을 노린 BioMysteryBench를 공개했다. 흥미로운 점은 결과 숫자보다 왜 기존 방식이 한계에 부딪히는가에 대한 진단과, 그 진단을 정면으로 우회하는 설계 결정에 있다. 같은 시기에 Genentech·Roche가 공개한 CompBioBench도 비슷한 결론에 수렴해, 바이오인포매틱스에서 모델이 진짜로 쓸만해지고 있다는 신호가 두 곳에서 교차 검증된 셈이다.

진단: 과학 평가가 어려운 세 가지 이유

저자는 생물학 평가가 본질적으로 어려운 이유를 세 가지로 정리한다.

1. 정답에 이르는 길이 여러 개다

일부 2형 당뇨 환자는 메트포민에 반응하고 일부는 반응하지 않는다. 왜인가?

이 질문에 답하려면 GWAS로 유전 변이를 찾아도 되고, 장내 미생물 시퀀싱을 해도 된다. 둘 다 합리적이다. BixBench가 채택한 “결론 기반 채점"은 이 문제를 우회하지만, 결론 자체가 한 과학자의 주관적 결정 사슬의 산물이라는 새로운 함정에 빠진다.

2. 작은 결정이 노이즈에서 다른 결론을 만든다

같은 메트포민 반응 변이를 두고 십 년에 걸친 연구사가 있다. 2011년 두 코호트에서 재현된 변이가, 2012년 당뇨 예방 프로그램에서는 효과가 사라졌고, 같은 해 메타분석은 “효과는 실재하나 더 약하다"로 정리했다. 동일한 가설에 동일한 데이터, 그러나 분석 결정의 미세한 차이가 정반대 결론을 낳는다. 결론 기반 채점은 이 단계에서 무너진다.

3. 가장 가치 있는 문제는 인간이 못 푼다

메트포민의 작용 메커니즘은 출시 30년이 지나도록 일차 표적조차 확정되지 않았다. 모델이 가장 큰 영향을 줄 수 있는 영역은 정확히 이런 문제인데, 인간이 못 푼다는 사실 자체가 평가를 막는다. ProteinGym과 CASP는 실험 측정값을 ground truth로 삼아 이 한계를 돌파했지만, 좁은 과제군에 한정된다.

설계: 세 가지 우회 전략

BioMysteryBench의 설계 결정 세 가지가 위 진단에 정면으로 답한다.

메소드 무관 채점

99문제 모두 모델에게 컨테이너와 표준 바이오인포 도구, pip·conda 설치 권한, NCBI·Ensembl DB 접근을 자유롭게 부여한다. 채점은 어떻게 풀었는가가 아니라 최종 답만 본다. 모델이 단일 연구자의 분석 취향에 묶이지 않고 자기 전략을 자유롭게 펼친다.

객관적 ground truth

답은 과학적 결론이 아니라 데이터의 통제 가능한 속성에서 나온다.

“이 결정 구조는 어떤 생물의 것인가?” “RNA-seq 데이터에서 환자가 감염된 바이러스 종은 무엇인가?” (PCR로 검증된 메타데이터)

연구자의 주관에 오염되지 않은, 검증 가능한 답이다.

Superhuman 질문 생성

문제 작성자에게는 답을 처음부터 도출하라가 아니라, 데이터에 신호가 존재함을 보이는 검증 노트북을 제출하라만 요구한다. 고등학교 대수의 “답 검증은 답 도출보다 쉽다"는 원리. 이 덕분에 인간이 풀 수 없는 문제도 평가 대상에 들어갈 수 있다.

인간 베이스라인

분류	문제 수	정의
Human-solvable	76	5명 도메인 전문가 중 적어도 1명이 정답
Human-difficult	23	5명 모두 실패 (QC로 망가진 4문제 제외 후)

Human-difficult 23문제는 셋 중 하나다 — 망가졌거나, 본질적으로 풀 수 없거나, 이론상 풀 수 있지만 인간이 못 푸는 문제. QC로 첫 번째를 제거하고도 23개가 남는다.

결과

Human-solvable: 인간 전문가와 동등 또는 그 이상

여러 세대에 걸쳐 빠르게 향상되었다. 가끔 Claude는 인간 전문가와 같은 전략을 쓰지만, 종종 완전히 다른 경로를 택한다. 특히 흥미로운 사례는 인간이 알고리즘이나 DB 조회로 식별하던 시퀀스 특성을 모델은 직관적 패턴 인식으로 잡아낸다는 점. 첫 진핵 프로모터 TATA 박스가 사람이 시퀀스를 반복해 보다가 발견된 것처럼, LLM은 같은 직관을 대규모로 자동화할 잠재력을 보인다.

Human-difficult: Mythos Preview 30%

전문가 패널이 못 푼 23문제 중 Mythos Preview는 약 30%를 풀었다. Sonnet 4.6 이상 세대도 유의미한 비율을 해결한다. 일부 바이오인포 과제에서 모델이 인간 전문가 패널을 앞지르기 시작한 시점이라는 의미.

CompBioBench의 수렴

이 글이 마무리되는 시점에 Genentech와 Roche가 100문제 규모의 CompBioBench를 공개했다. 합성·증강된 데이터에서 단일 ground truth를 가지는 다단계 추론 과제들. 그곳에서도 Opus 4.6은 전체 81%, 최난도 69%를 기록했다. 두 독립 벤치마크의 결론이 수렴한다는 것은 단일 데이터셋의 우연이 아닌 실제 능력 향상의 신호다.

Claude의 두 가지 전략

저자는 Opus 4.6의 트랜스크립트를 분석해 두 패턴을 식별한다.

Know-it-all: 사전 지식이 메타분석을 대체

인간 전문가가 메타분석이나 DB 통합으로 풀어야 할 문제를, 모델은 수십만 논문에서 학습한 메커니즘·온톨로지 지식을 라이브 분석과 결합해 직접 푼다. 단, 사전 지식이 함정이 되어 오답을 자신 있게 내는 사례도 (human-solvable 셋에서) 관찰됐다.

모를 때를 안다: 다중 방법 수렴

확신이 없는 문제에서 Opus 4.6은 서로 다른 분석 경로를 동시에 시도하고, 여러 경로가 일치하는 답을 채택한다. 인간 과학자도 차용할 만한 검증 패턴 — 자기 자신의 불확실성을 조작 가능한 신호로 다룬다.

가장 흥미로운 지점: 정답률 헤드라인 뒤의 신뢰도 격차

이 글에서 가장 깊이 있는 분석은 — 흥미롭게도 — Mythos Preview가 직접 수행했다. 매 문제를 5회 시도했으므로, 정답을 몇 번 맞혔는가의 분포로 모델 능력의 결을 살필 수 있다.

5번 중 5번 맞히면 신뢰할 만한 방법을 갖고 있는 것이다. 5번 중 1번만 맞히면 다시는 재현 못 할 추론 경로에 운 좋게 도달한 것이다.

                    Human-solvable    Human-difficult
Opus 4.6 신뢰          86% (≥4/5)      44% (≥4/5)
Opus 4.6 brittle        9% (1-2/5)     44% (1-2/5)
Sonnet 4.6 신뢰        75%              22%
Sonnet 4.6 brittle      9%              56%

Opus 4.6은 human-solvable에서 강하게 양극단 분포(거의 항상 풀거나 거의 항상 못 풀거나)를 보이지만, human-difficult에서는 중간 영역이 채워진다. 정답의 절반 가까이가 재현 불가능한 경로에서 나온다. 77.4% → 23.5%의 정답률 하락은, 그 아래 깔린 신뢰도 붕괴를 과소표현한다. Mythos Preview조차 이 양극단 → 취약 분포 전환에서 자유롭지 않다.

저자는 이 분석을 두고 *“흥미롭지만 어딘가 지루했다”*고 평한다. 새 질문을 던지지 않고 기존 분석에 미세한 결을 더했을 뿐이라는 것. 그래도 모델이 연구 취향(research taste)의 씨앗을 보이기 시작한다는 것이 이 글의 결론에 가깝다.

한계와 시사점

벤치마크의 한계는 정직하다. 인간도 모델도 풀지 못한 문제는, 풀 수 없는 것인지 그저 극도로 어려운 것인지 알 수 없다. 검증 노트북은 신호가 데이터에 존재함을 보장할 뿐, 처음부터 풀 수 있음은 보장하지 않는다.

하지만 이 불확실성 자체가 흥미롭다 — 더 강해진 모델이 인간도 모델도 풀지 못한 문제의 최초 해결자가 될 수 있다는 가능성이 거기에 열려 있다.

출처

Anthropic Research, Brianna (Discovery 팀). Apr 29, 2026. 원문: https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench 데이터셋: https://huggingface.co/datasets/Anthropic/BioMysteryBench-preview

3줄 요약#

왜 이 글이 흥미로운가#

진단: 과학 평가가 어려운 세 가지 이유#

1. 정답에 이르는 길이 여러 개다#

2. 작은 결정이 노이즈에서 다른 결론을 만든다#

3. 가장 가치 있는 문제는 인간이 못 푼다#

설계: 세 가지 우회 전략#

메소드 무관 채점#

객관적 ground truth#

Superhuman 질문 생성#

인간 베이스라인#

결과#

Human-solvable: 인간 전문가와 동등 또는 그 이상#

Human-difficult: Mythos Preview 30%#

CompBioBench의 수렴#

Claude의 두 가지 전략#

Know-it-all: 사전 지식이 메타분석을 대체#

모를 때를 안다: 다중 방법 수렴#

가장 흥미로운 지점: 정답률 헤드라인 뒤의 신뢰도 격차#

한계와 시사점#

출처#