Reasoning-Driven Synthetic Data Generation and Evaluation

3줄 요약

Google/EPFL 연구팀이 TMLR 2026에 발표한 논문으로, seedless·reasoning-first 합성 데이터 생성 프레임워크 Simula를 제안한다.
목표 도메인을 택소노미로 분해하고, 에이전틱 메타프롬프팅으로 다양성·복잡도를 제어하며, 이중 비평(double-critic) 거부 샘플링으로 품질을 보증하는 3단계 파이프라인이다.
6개 데이터셋 실험에서 전체 시스템이 항상 최선이었으며, 스케일링 법칙이 데이터 크기가 아닌 데이터 속성의 함수임을 보여준다.

왜 합성 데이터인가

특수 도메인(사이버 보안, 법률, 저자원 언어)의 학습 데이터는 본질적으로 희소하거나 수집이 불가능하다. 인간 어노테이션은 비싸고 느리며 오류가 잦다. 합성 데이터는 확장 가능한 대안이지만, 기존 방법은 세 가지 병목을 안고 있다.

“좋은 데이터"의 정의가 모호하다. 품질(quality)·다양성(diversity)·복잡도(complexity)의 세 축이 얽혀 있고, 하나만 최적화하면 다른 축이 희생된다.
메커니즘의 제약. 수작업 프롬프트는 확장이 안 되고, 진화 알고리즘은 설명이 안 되며, 시드 데이터 의존 방식은 데이터가 없는 도메인에서 무력하다.
평가의 부재. 임베딩 코사인 거리 같은 지표는 해상도가 낮아 실행 가능한 개선 방향을 제시하지 못한다.

Simula는 이 세 병목을 동시에 공략하는 프레임워크다.

Simula 프레임워크

택소노미로 커버리지 공간을 분해한다

데이터셋 기술(description)을 주요 변동 요인(factor)으로 분해하고, 각 요인을 계층적 택소노미로 확장한다. 예컨대 “고양이 이야기 데이터셋"이라면 고양이 종류, 이야기 형식, 대상 독자가 요인이 되고, 고양이 종류는 집고양이 → 숏헤어 → 브리티시 숏헤어처럼 세분화된다.

택소노미 생성 자체도 generator-critic 루프를 돈다. M3(멀티모달 모델)가 노드를 제안하면, 별도 critic 호출이 완전성·건전성·참신성을 검토한다. 실험에서 Simula의 택소노미는 전문가 택소노미 대비 완전성 0.78, 건전성 0.75를 달성했다(0-shot은 0.52/0.70).

에이전틱 메타프롬프팅

택소노미 노드 조합이 메타 프롬프트로 변환된다. 이때 두 가지 다양성 축이 독립적으로 작동한다.

전역 다양성(Global): 택소노미의 깊은 레벨에서 노드를 샘플링하여 개념 공간을 넓게 커버.
지역 다양성(Local): 같은 노드셋에서 여러 메타 프롬프트를 생성하고, 일부(비율 c)를 “complexified"하여 난이도를 높인다.

둘은 가산적이다. 어느 한쪽만 최적화하면 데이터셋·사이즈 조합에 따라 최적이 아닌 결과가 나온다.

이중 비평 거부 샘플링

생성된 샘플이 메타 프롬프트의 의미·구문 요구사항을 충족하는지 critic이 판정한다. 분류·MCQ처럼 정답이 있는 태스크에서는 정답과 오답을 독립적으로 판정하는 double-critic을 추가한다. 이는 LLM의 아첨 편향(sycophancy)을 완화하기 위한 설계다.

실험 결과(MATH 데이터셋):

통제 환경에서 이론적 정확도 향상 일관 관찰
인간 복잡도 등급이 올라갈수록 거부율도 올라가지만, 정확도 향상은 유지
critic이 거부한 샘플의 Elo가 일관되게 높아, 품질-복잡도 트레이드오프를 정량 확인

평가: 복잡도와 커버리지를 어떻게 측정하는가

보정된 복잡도 점수

개별 샘플 점수 대신 배치 단위로 상대 비교하여 과신을 줄이고, 쌍별 비교로 Elo 점수를 산출한다. 인간이 매긴 복잡도 등급과 정렬되며, 비지도 환경에서도 작동한다.

택소노미 커버리지

기존 데이터를 택소노미 노드에 할당하면, 레벨별 고유 노드 비율(Level Ratio Coverage)로 커버리지 지도를 그릴 수 있다. 실험에서 실제 데이터는 택소노미 기준으로 항상 합성 데이터보다 낮은 커버리지를 보였다.

실험 결과

데이터셋과 설정

니치 도메인: CTI-MCQ(사이버 위협 4지선다), CTI-RCM(CVE → CWE 분류), LEXam(법률 시험)
인기 도메인: GSM8k(초등 수학), Global MMLU(다국어 지식)
학생 모델: Gemma 3 4B (LoRA 파인튜닝 10회)
교사 모델: Gemini 2.5 Flash
데이터셋당 512k 고유 샘플, 13-gram 중복 제거 후 사용

핵심 발견

전체 시스템이 항상 최선이다. Local+Global+Critique 조합이 모든 데이터셋·사이즈에서 최선이거나 동률이었다. 다양성·복잡성·품질을 동시에 최적화하는 것이 어느 한 축만 최적화하는 것보다 항상 낫다.

스케일링은 양이 아닌 속성의 함수다. Baseline은 데이터를 늘려도 성능 향상이 둔화되지만, Simula 변형들은 같은 양에서도 유의미한 차이를 보인다. 데이터 품질 속성이 스케일링 법칙의 진짜 변수다.

복잡도 효과는 교사 모델 역량에 의존한다. GSM8k·CTI-MCQ에서 고복잡도 분할이 저복잡도보다 최대 10%p 높은 정확도를 보였다. 반면 LEXam에서는 교사 모델 정확도가 57%에 불과하여 고복잡도 데이터가 오히려 노이즈 라벨이 되었고, 저복잡도만 스케일링됐다.

Critiquing의 효과는 도메인 의존적이다. 거부율은 CTI-MCQ 2%, CTI-RCM 9%, GSM8k 9%, LEXam 61%로 크게 달랐다. 성능 향상이 미미한 경우에도 다양성 요구사항 준수와 라벨 정확성 확보 측면에서 critic은 유용하다.

가장 흥미로운 지점

논문의 핵심 주장은 합성 데이터의 연구 축을 “무엇이 좋은 데이터인가"에서 “어떻게 만들 것인가”(메커니즘 설계)로 전환해야 한다는 것이다. 좋은 데이터의 정의는 도메인·모델·스케일에 따라 질적으로 달라지기 때문에, 범용 해법 대신 제어 가능하고 설명 가능한 생성 시스템을 만드는 것이 현실적이다.

LEXam 실험은 이 주장의 좋은 예시다. 교사 모델이 약한 도메인에서 복잡도를 올리면 오히려 성능이 하락한다. 만약 “복잡도를 높이면 항상 좋다"는 고정 레시피를 적용했다면 역효과를 냈을 것이다. Simula처럼 각 축을 독립적으로 튜닝할 수 있는 프레임워크가 있어야 이런 도메인별 특성에 대응할 수 있다.

출처

Tim R. Davidson (EPFL), Benoit Seguin, Enrico Bacis (Google), Cesar Ilharco (Google DeepMind), Hamza Harkous (Google) Published in Transactions on Machine Learning Research (03/2026) 원문: https://openreview.net/forum?id=NALsdGEPhB

3줄 요약#

왜 합성 데이터인가#

Simula 프레임워크#

택소노미로 커버리지 공간을 분해한다#

에이전틱 메타프롬프팅#

이중 비평 거부 샘플링#

평가: 복잡도와 커버리지를 어떻게 측정하는가#

보정된 복잡도 점수#

택소노미 커버리지#

실험 결과#

데이터셋과 설정#

핵심 발견#

가장 흥미로운 지점#

출처#