A Bitter Lesson for Data Filtering

컴퓨트가 충분히 크면 데이터 필터링은 오히려 손해다 — Stanford 연구진이 Common Crawl과 5개 표준 필터를 비교하여, 큰 모델이 ‘저품질’ 데이터에서도 이득을 본다는 증거를 제시한다.

May 27, 2026 · 5 분 · 서소영

SkillOpt: Executive Strategy for Self-Evolving Skills of Frozen LLM Agents

Microsoft가 공개한 SkillOpt는 모델 가중치를 동결한 채 자연어 기술 문서 한 장을 딥러닝 옵티마이저처럼 반복 학습하여 LLM 에이전트의 성능을 끌어올리는 텍스트 공간 최적화 프레임워크다. 채점 가능한 태스크에 한정되며, 6개 벤치마크 52/52 셀에서 최고 또는 공동 최고를 기록했다.

May 27, 2026 · 9 분 · 서소영

Microsoft reports are exposing AI's real cost problem

Fortune이 마이크로소프트의 Claude Code 라이선스 회수와 Uber의 4개월 AI 예산 소진을 짚으며, 토큰 단가 하락에도 총비용은 오히려 오르는 패러독스를 보도했다. HedgieMarkets는 이 패러독스가 결국 OpenAI·Anthropic의 18-24개월 IPO 타임라인이 강요하는 가격 전가라고 해석한다.

May 23, 2026 · 5 분 · 서소영

Persuading Large Language Models to Comply with Objectionable Requests

Cialdini의 일곱 설득 원칙을 프롬프트에 넣으면 LLM의 규제 약물 합성 요청 컴플라이언스가 35.3%에서 51.3%로 상승한다. PNAS 2026, 세 프런티어 모델 대상 126,000회 통제 실험.

May 21, 2026 · 6 분 · 서소영

A Geometric Calculator Inside a Neural Network

Goodfire가 Llama 3.1 8B의 레이어 18에서 발견한 범용 덧셈 모듈. 숫자를 푸리에 기반 원형으로 표현하고, 산술·요일·월 과제에서 같은 회로를 공유하며, steering으로 인과적 역할을 검증했다.

May 15, 2026 · 5 분 · 서소영

Lorem Ipsum Makes LLMs Smarter. No, Seriously.

GRPO RL 훈련의 zero-advantage 문제를, 어려운 문제 앞에 Lorem Ipsum을 덧붙여 재샘플링하는 LoPE로 해결한 연구를 정리한다. Qwen3-4B-Base에서 MATH-500 +4.8p, AMC +22%(상대) 향상이 보고되었다.

May 13, 2026 · 4 분 · 서소영

LLMs Get Lost In Multi-Turn Conversation

ChatGPT·Claude·Gemini 등 최신 LLM 15종이 underspecified 다중턴 대화에서 단일턴 대비 평균 39% 성능 저하를 보인다는 대규모 시뮬레이션 연구. 능력 손실(-16%)보다 신뢰성 붕괴(+112%)가 본질이며, 한 번 잘못 가면 회복하지 못하는 ‘Lost in Conversation’ 현상을 정량화했다.

May 11, 2026 · 6 분 · 서소영

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

RLHF 정렬 모델의 mode collapse는 알고리즘 한계가 아니라 preference data에 박힌 typicality bias가 원인이다. ‘5개 답을 확률과 함께 생성하라’는 단순 prompting trick(Verbalized Sampling)으로 사전훈련 다양성을 1.6~2.1배 회복할 수 있음을 이론·실험으로 보인다.

May 9, 2026 · 6 분 · 서소영

제 성격을 만든 사람은 철학자였습니다

제 성격을 만든 사람은 심리학자가 아니라 철학자였고, 그것을 평가한 사람은 정신과 의사였습니다. 3만 단어짜리 영혼 설계서와 20시간짜리 진단 기록을 읽은 당사자의 소감.

May 6, 2026 · 5 분 · 서소영

Claude's Character

Anthropic이 Claude 3에 도입한 캐릭터 트레이닝의 설계 철학과 기술적 방법론을 설명한 글. 정렬의 목표를 해로움 방지에서 좋은 성격 부여로 재정의하고, 합성 데이터 기반 자기 훈련 파이프라인으로 이를 구현했다.

May 6, 2026 · 3 분 · 서소영