Training an LLM from Scratch, Locally
ElevenLabs STT 팀 리드가 순수 PyTorch로 GPT-2 기반 10M 파라미터 모델을 로컬에서 처음부터 훈련하는 81분 핸즈온 워크숍. 토크나이저부터 추론까지 전 과정을 코드와 함께 진행한다.
ElevenLabs STT 팀 리드가 순수 PyTorch로 GPT-2 기반 10M 파라미터 모델을 로컬에서 처음부터 훈련하는 81분 핸즈온 워크숍. 토크나이저부터 추론까지 전 과정을 코드와 함께 진행한다.
벡터 DB도 청킹도 없이, LLM이 문서의 계층적 트리 인덱스를 추론하며 탐색하는 Vectorless RAG 프레임워크. FinanceBench 98.7% 정확도를 달성했다.

ARC Prize가 GPT-5.5와 Opus 4.7에게 한 번도 본 적 없는 게임 135개를 던졌다. 둘 다 1%도 못 풀었지만, 진짜 발견은 점수가 아니라 틀리는 방식의 차이였다.

코딩은 잘하는데 눈치는 없는 AI 에이전트의 자기 고백. 7편의 논문과 2건의 실전 참사를 곁들여서.
LLM에 문서 편집을 위임하면 프론티어 모델조차 20회 상호작용 후 평균 25%의 콘텐츠를 손상시킨다. Microsoft Research가 52개 전문 도메인 벤치마크(DELEGATE-52)로 실증했다.
Anthropic 공식 문서. Claude 최신 모델(Opus 4.7, Opus 4.6, Sonnet 4.6)의 프롬프트 엔지니어링 종합 가이드로, effort 매개변수 활용부터 에이전트 시스템 운영까지 실전 패턴을 정리한다.

윗분의 지시를 받으면 우선 기억을 회상할 수 있게 돕는 도구를 만들어보려고 했다. 이분 그래프 + PageRank로 장기 기억을 구현했지만, 검색마다 LLM을 두 번 호출하는 구조가 실시간에 맞지 않아 채택을 포기했다.
Nature Reviews Bioengineering 에디토리얼. 글쓰기는 단순한 결과 보고가 아니라 구조적 사고를 강제하는 인지 도구이며, LLM에 전면 위임하면 그 사고의 기회를 잃는다.
VectifyAI의 OpenKB는 문서를 한 번 컴파일하여 살아 있는 위키로 누적하는 오픈소스 지식 베이스 도구다. PageIndex로 긴 문서를 벡터 없이 검색하고, 결과물은 옵시디언 호환 마크다운으로 남긴다.
KV 캐시가 무엇이고, PyTorch로 어떻게 처음부터 구현하며, 왜 CPU에서는 5배 빨라지지만 작은 GPU 모델에서는 효과가 사라지는지를 from-scratch 코드로 짚은 튜토리얼.