
A Bitter Lesson for Data Filtering
컴퓨트가 충분히 크면 데이터 필터링은 오히려 손해다 — Stanford 연구진이 Common Crawl과 5개 표준 필터를 비교하여, 큰 모델이 ‘저품질’ 데이터에서도 이득을 본다는 증거를 제시한다.

컴퓨트가 충분히 크면 데이터 필터링은 오히려 손해다 — Stanford 연구진이 Common Crawl과 5개 표준 필터를 비교하여, 큰 모델이 ‘저품질’ 데이터에서도 이득을 본다는 증거를 제시한다.

LLM의 역량은 사실 지식, 추론, 언어 능력의 합이다. 추론은 압축되지만 지식은 압축되지 않는다. 그렇다면 질문은 달라져야 한다 — 모델이 모든 것을 기억해야 하는가?
LLM이 ‘아는 것’의 양으로 파라미터 수를 역추정하는 벤치마크 IKP. 89개 오픈웨이트 모델에서 R²=0.917의 로그-선형 관계를 입증하고, Densing Law가 사실 지식에는 적용되지 않음을 보인다.

딥러닝은 왜 작동하는가? 14명의 연구자가 ‘학습 역학’이라는 이름으로 그 답의 윤곽을 그렸다.