LLM | 서소영의 서재

When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models

라우팅·다수결·캐스케이드·MoA 등 어떤 LLM 오케스트레이션도 β(모든 모델이 같은 질의에서 함께 실패하는 비율)로 상한이 정해진다. 관행적으로 보고되는 pairwise error correlation ρ는 β를 원리적으로 볼 수 없다. 67개 프론티어 모델·21개 프로바이더에서 tetrachoric 단일요인 모델도 실측 β를 2.5배 과소예측했고, 같은 GPQA 문항을 free-response로 재출제하면 β=0이 0.127로 열린다.

GPT-5.6: Frontier intelligence that scales with your ambition

OpenAI가 GPT-5.6 패밀리(Sol, Terra, Luna)를 정식 출시했다. 토큰당 유효 작업량이라는 효율 지표를 전면에 세우고, 코딩과 지식 노동, 사이버보안, 과학에서 다수의 최고 기록과 함께 병렬 멀티에이전트 설정 ultra, 강화된 안전 체계를 공개했다.

jamesob's guide to running SOTA LLMs locally

2,000달러로는 Qwen과 로컬 STT까지, 40,000달러로는 거의 Opus급 GLM-5.2까지. Bitcoin Core 컨트리뷰터 James O’Beirne이 자기 손으로 조립한 SOTA LLM 리그의 BOM, BIOS, GRUB, ACS까지 낱낱이 공개한 실전 가이드.

AI 모델 랜덤 넘버 지문 데이터셋

1부터 355 사이의 랜덤한 수를 뽑으라는 프롬프트를 대량 반복시켜 얻은 통계 분포로 24개 AI 모델의 지문을 만들고, 그 지문으로 제3자 API 중계의 모델 위조까지 잡아낸 실측 데이터셋.

AI 스케일링은 지수가 아니라 로지스틱이다 — @5_utr의 포화 주장

통계에 밝은 종양내과 의사 @5_utr가 AlexNet부터 GPT-4까지의 데이터에 로지스틱 곡선을 적합해 ‘AI 스케일링은 지수가 아니라 포화한다’고 주장했다. 타래의 진짜 칼끝은 거시경제다 — AI 밸류에이션이 지수함수로 가격책정됐는데 데이터는 로지스틱이 훨씬 잘 맞으니 함수형 오설정이자 버블이라는 것. 주장과 그 한계를 함께 정리한다.

Has AI Already Killed How-To Nonfiction?

Tim Ferriss가 자기 책 5권의 BookScan 판매 데이터를 공개했다. 2022년 대비 2026년 약 80% 감소, ‘how-to’ 비문학은 챗봇으로 대체되는 중이다.

CoreWeave Trains DeepSeek-V3 Benchmark in Two Minutes

코어위브가 MLPerf Training v6.0에서 8,192개의 NVIDIA Blackwell Ultra GPU로 DeepSeek-V3 671B를 2.02분에 학습 완료하며 역대 최고 기록을 세웠다. 코어위브는 풀스택 소프트웨어 최적화 덕에 GPU를 더 늘리지 않고도 v5.0 대비 2.8배 빠른 결과를 냈다고 주장한다.

Using local LLMs for agentic coding

GitHub Copilot이 사용량 기반 과금으로 전환된 시점에, 로컬 LLM과 무료 클라우드 모델로 비용 부담 없이 에이전틱 코딩 환경을 꾸리는 실용 가이드. Gemma 4·LM Studio·Copilot Custom Endpoint·Pi·OpenRouter 무료 모델까지 단계별로 다룬다.

The path from Fable to superintelligence

Anthropic이 Fable을 출시한 직후 zero_goliath가 쓴 짧은 에세이. 컴퓨트가 아니라 데이터 파이프라인이 진짜 병목이며, RLVR이 한계에 닿으면 AI가 운영하는 실제 회사들의 손익이 다음 보상 신호가 된다고 본다.

BREAKING: Today's Frontier AI companies will never exceed the AI capability frontier again

Andrew Trask는 더 큰 단일 모델이 AI 한계를 독점하리라는 통념이 끝났다고 선언한다. 작은 모델들의 가중 앙상블이 정확도·속도·비용에서 이미 단일 프런티어 모델을 추월하기 시작했고, AI의 미래는 회사 단위가 아닌 세계 단위의 ’network-source AI’다.