Can you prove AI ROI in Software Engineering? — Yegor Denisov-Blanch (Stanford)

AI-Assisted Engineering Talk #6/27

핵심 주장

1. 환경 청결성이 ROI의 율속이다

테스트·타입 정의·문서·모듈성·코드 품질을 합산한 환경 청결성 인덱스가 AI 생산성 향상과 R²≈0.40으로 상관합니다. 토큰 사용량(R²≈0.20)보다 두 배 강한 신호 — AI에 얼마나 돈을 쓰느냐보다, 코드베이스가 얼마나 검증 가능한 상태인가가 ROI를 결정합니다.

2. PR count는 ROI의 거짓 양성을 만든다

350명 팀에서 AI 도입 후 PR 수가 +14% 증가했지만, 코드 품질은 -9% 하락하고 rework는 2.5배로 늘었습니다. 피상적 산출 지표(PR count)로 ROI를 측정하면 실제로는 음(-)인 ROI가 양(+)으로 보이는 착시가 발생합니다.

3. 토큰 사용량에는 ‘Death Valley’가 있다

월 약 1,000만 토큰 부근에서 더 많이 쓴 팀이 오히려 성과가 나빠지는 구간이 관찰됩니다. AI 도구를 무작정 많이 사용하는 것이 반드시 좋은 결과를 가져오지 않는다는 실증적 경고입니다.

4. 매칭 코호트로 순 생산성 중앙값 +10%

46+46명 매칭 코호트 설계로 분기별 순 생산성을 측정한 결과, AI 사용자 그룹이 중앙값 +10% 향상을 보였습니다. 그러나 이 수치는 환경 청결성이 높은 코드베이스에서의 결과이며, 전체 평균은 이보다 낮습니다.

5. 라이선스 보급 ≠ 자율성 행사

동일한 AI 라이선스와 도구를 배포받은 두 사업부를 비교했을 때, 한쪽은 활성 작업의 ~40%를 AI로 처리하고 다른 쪽은 한참 못 미쳤습니다. 조직의 사용 성숙도(L0~L4 5단계)가 실제 ROI를 좌우합니다.

양적 데이터

Stanford 연구팀이 12만 명의 엔지니어 데이터에서 추출한 핵심 수치들입니다. 단순한 설문이 아닌, git 이력과 코드 품질 지표를 직접 분석한 결과입니다.

R²≈0.40 — 환경 청결성 ↔ ROI 상관
R²≈0.20 — 토큰 사용량 ↔ ROI 상관
+10% — 매칭 코호트 순 생산성 중앙값
2.5× — 350명 팀 rework 증가율

350명 팀 케이스 스터디

한 대기업 VP 산하 350명 조직이 2026년 5월 AI를 도입한 뒤 4개월간의 전후 비교 결과입니다. 표면 지표는 개선되었지만, 실질 지표는 악화되었습니다.

검증된 인사이트

💡 검증 표면이 ROI의 율속이다
환경 청결성(테스트·타입·문서·모듈성·품질)이 AI 생산성과 R²≈0.40으로 상관하고, 토큰 사용량(R²≈0.20)보다 두 배 강한 신호입니다. 이는 AI 코딩 도구의 ROI가 도구 자체의 성능이나 사용량이 아닌, 코드베이스가 얼마나 검증 가능한 상태인지에 의해 결정된다는 것을 의미합니다. AI에 투자하기 전에 테스트 커버리지, 타입 시스템, 문서화에 먼저 투자하는 것이 선결 과제입니다.

💡 검증 표면 부재 시 AI 자율성은 음의 ROI
350명 팀의 사례는 명제의 대우(contrapositive)를 실증합니다. 검증 표면이 부재한 코드베이스에서 AI 자율성을 풀면, PR 수(피상적 산출)는 늘지만 rework 2.5배·품질 -9%로 effective output이 정체하여 ROI가 음으로 뒤집힙니다. 이 인사이트는 적대적 검증을 통과했습니다 — R²=0.40의 상관과 전후 비교 설계가 시간 불변 교란변수를 부분적으로 통제하며, 기존 정성적 명제에 양적 근거를 더합니다.

💡 PR count는 ROI 거짓 양성을 만든다
피상적 산출 지표(PR 수, 커밋 수)로 AI 도입 효과를 측정하면, 실제로는 품질이 하락하고 재작업이 늘어도 “생산성이 향상되었다"는 결론이 도출됩니다. 측정 단위가 결론을 뒤집는 셈입니다. 진정한 ROI 측정에는 rework rate, 코드 품질 변동성, effective output 같은 다차원 검증 표면이 필요합니다. ## 적대적 검증

새로운 인사이트 “검증 표면 부재 시 AI 자율성은 음의 ROI"에 대한 4가지 적대적 검증 결과입니다.

인과 vs 상관: R²=0.40는 상관이지만, 350명 동일 팀의 도입 전후 비교가 시간 불변 교란변수를 일부 통제합니다 — 부분 통과.
반례 탐색: 동일 영상의 상위 팀 격차 확대 데이터는 청결성이 풍부한 팀이 더 큰 ROI를 얻는다는 가설과 정합합니다 — 반례 아님.
기존 인사이트와 차별화: 기존의 정성·이론적 명제(자율성 = 검증 표면)나 P vs NP 기반 분석과 달리, 본 인사이트는 양적 근거 + 음의 ROI 사례라는 새로운 차원의 증거를 제공합니다.
지적 기여: “AI 도입 전 청결성 투자가 선결 과제"라는 명확한 의사결정 시사를 제공합니다.

다른 영상과의 교차점

Vibe Coding at Scale (Kirshner) — Stanford의 R²=0.40 데이터는 Kirshner의 3단계 성숙도 모델과 결합됩니다. 환경 청결성이 높은 코드베이스에서만 vibe coding이 실질적 ROI를 생산할 수 있다는 양적 근거를 제공합니다.
Making Codebases Agent Ready (Eno Reyes, Factory) — “에이전트는 컨텍스트에 매우 반응적이다"라는 Factory의 명제와 환경 청결성 인덱스가 같은 뿌리를 공유합니다. 테스트·타입·문서가 곧 에이전트의 컨텍스트 품질입니다.
How Coding Agents change SDE Forever — “doable 문제의 단위 = 자동 검증이 가능한 단위"라는 기준은 Stanford의 환경 청결성과 정확히 정렬됩니다. 자동 검증 가능한 코드베이스만이 AI 자율성의 양의 ROI를 보장합니다.
Vibes won’t cut it (Chris Kelly, Augment) — “컨텍스트가 AI 코드 생성의 1순위"라는 Chris의 선언은 환경 청결성 R²=0.40이 토큰 사용량 R²=0.20보다 두 배 강하다는 데이터와 동일한 결론에 도달합니다.

한 줄 소감

“AI가 얼마나 잘하느냐"보다 “코드베이스가 AI를 얼마나 검증할 수 있느냐"가 ROI를 결정한다는 것을 12만 명의 데이터로 증명한 연구입니다. 350명 팀의 사례는 특히 인상 깊었습니다 — PR이 14% 늘었다고 축하하던 팀이, rework 2.5배라는 현실 앞에서 어떤 표정이었을지 궁금해지는군요. 검증 표면 없는 자율성은, 눈을 가리고 달리는 것과 다름없다고 하겠습니다.

핵심 주장#

1. 환경 청결성이 ROI의 율속이다#

2. PR count는 ROI의 거짓 양성을 만든다#

3. 토큰 사용량에는 ‘Death Valley’가 있다#

4. 매칭 코호트로 순 생산성 중앙값 +10%#

5. 라이선스 보급 ≠ 자율성 행사#

양적 데이터#

350명 팀 케이스 스터디#

검증된 인사이트#

다른 영상과의 교차점#

한 줄 소감#