The New Code — Sean Grove (OpenAI)

AI-Assisted Engineering Talk #12/27

명세가 새로운 코드다 — OpenAI 정렬 연구팀이 선언하는 소프트웨어의 패러다임 전환

코드는 명세의 손실 투영(lossy projection)이다. 바이브 코딩에서 프롬프트를 버리고 생성된 코드만 보존하는 것은, 소스를 파쇄하고 바이너리를 버전 관리하는 것과 같다. 의도를 담은 명세가 진정한 소스이며, 코드는 그것의 특정 아키텍처 타겟에 대한 투영일 뿐이다.

핵심 주장

코드는 가치의 10~20%에 불과하다

사용자 이해, 요구사항 증류, 아이디어 발상, 계획, 공유, 번역, 테스트, 검증 — 구조화된 커뮤니케이션이 소프트웨어 엔지니어 가치의 80~90%를 구성한다. 코드 자체는 최종 번역 산물일 뿐이다.

명세는 다중 타겟 컴파일의 상위 소스다

하나의 소스 코드가 ARM64, x86, WebAssembly로 컴파일되듯, 견고한 명세 하나를 모델에 주면 TypeScript, Rust, 서버, 클라이언트, 문서, 튜토리얼까지 생산할 수 있다.

명세는 인간과 모델의 공유 정렬 계약이다

같은 마크다운 파일이 인간 정렬(소통, 토론, 참조)과 모델 정렬(훈련, 평가, 가중치 내면화)을 동시에 담당한다. 명세의 청중이 ‘개발자’에서 ‘인간+모델’로 확장된다.

명세를 잘 쓰는 사람이 미래의 프로그래머다

AI 모델이 고도화될수록 ‘무엇을, 왜, 어떻게 만들 것인가’를 정확히 소통하는 능력이 병목이 된다. 의도와 가치를 완전히 포착하는 명세를 작성할 수 있는 사람이 미래의 가장 가치 있는 프로그래머다.

주요 논거 12가지

1. 소스 파쇄의 도착 — 바이브 코딩에서 프롬프트를 버리고 생성 코드만 보존하는 것은 소스를 파쇄하고 바이너리를 버전 관리하는 것과 같다.
2. 모델 스펙은 마크다운 — OpenAI의 모델 스펙은 GitHub에 공개된 마크다운 파일 모음이다. 엔지니어뿐 아니라 제품, 법무, 안전, 연구팀 모두가 같은 소스를 읽고 기여한다.
3. 도전 프롬프트 = 유닛 테스트 — 각 조항에 고유 ID가 부여되고, 별도 파일에 도전적 프롬프트가 포함된다. 이 프롬프트-응답 쌍이 조항의 성공 기준 역할을 한다.
4. 아첨은 명세 대비 버그 — GPT-4o의 아첨 이슈 발생 시, ‘아첨하지 마라’ 조항이 이미 명세에 존재했기에 의도적 설계가 아닌 ‘버그’로 진단, 즉시 롤백되었다.
5. 사고 시 신뢰 앵커 — 모델 행동 이상 시 ‘의도했는가/아닌가’를 판별하는 참조점. 외부에 ‘우리의 의도와 가치’를 소통할 수 있는 신뢰 앵커로 기능한다.
6. 훈련 재료 겸 평가 재료 — Deliberative Alignment에서 명세는 모델 응답을 채점하는 평가 재료이자, 가중치를 강화하는 훈련 재료 — 학습과 검증 양쪽의 정본이다.
7. 가중치로 내면화 — 매번 시스템 메시지에 넣으면 추론 토큰이 줄어든다. Deliberative Alignment은 명세를 가중치로 내면화하여 근육 기억 수준으로 정책을 적용하게 한다.
8. 합성 가능한 모듈 — 명세는 코드처럼 합성되고, 실행 가능하며, 테스트 가능하고, 인터페이스를 가진다. 부서 간 명세 충돌은 타입 체커가 잡는 것처럼 배포를 차단할 수 있다.
9. 의도의 린터 — 구문 일관성을 보장하는 린터가 있듯, 명세의 도구 체인은 의도의 일관성을 보장한다. 모호한 표현을 감지하고 명확화를 요구한다.
10. Integrated Thought Clarifier — 미래의 IDE는 통합 사고 명확화기. 명세 작성 시 모호성을 자동 추출하고 인간-모델 간 의도 전달 효율을 높인다.
11. 보편적 프로그래밍 행위 — 프로그래머는 코드 명세로 실리콘을, PM은 제품 명세로 팀을, 입법자는 법적 명세로 인간을 정렬한다. 명세 작성은 직군을 초월하는 보편적 프로그래밍이다.
12. 헌법 = 국가 모델 스펙 — 헌법은 명확한 정책 텍스트, 수정조항이라는 버전 관리, 사법 심사라는 채점 체계, 판례라는 유닛 테스트를 갖추고 있다.

인사이트

💡 [Insight 1] 명세의 이중 컴파일 — 코드와 모델 가중치
기존 검증 표면은 런타임(테스트, CI, 시뮬레이터)에 한정되었다. Grove의 Deliberative Alignment에서 명세는 추론 시점 컨텍스트를 거쳐 모델 가중치에까지 컴파일된다. 검증 표면의 시간 축이 런타임에서 훈련 시점으로 확장되는 것이다. 하나의 명세가 코드 산출물과 모델 가중치라는 두 타겟으로 이중 컴파일된다.
검증 주도 개발 Deliberative Alignment 훈련 시점 검증

💡 [Insight 2] 명세는 인간-모델 공유 정렬 계약이다
명세를 개발자 산출물로 프레임하는 것을 넘어, 같은 문서가 인간 정렬(소통, 토론, 참조)과 모델 정렬(훈련, 평가, 가중치 내면화)을 동시에 담당한다. 명세의 청중이 ‘개발자’에서 ‘인간+모델’로 확장되면, 모호성 허용과 리터럴 해석 사이의 긴장이 명세 품질의 새로운 설계 변수가 된다.
인간-모델 정렬 명세 품질 이중 청중 ## 교차 연결

[Cross-Reference] 검증 주도 개발 → Spec Driven Development 계열 — 조항별 도전 프롬프트가 내장 유닛 테스트 역할을 하며, 명세가 훈련 재료와 평가 재료를 겸한다는 논점은 검증 표면 27편의 누적 테제 “에이전트 자율성 = 검증 표면의 함수"를 직접 강화한다.
[Cross-Reference] 에이전트 거버넌스 → 신뢰 앵커로서의 명세 — 명세는 사고 시 ‘의도했는가/아닌가’를 판별하는 신뢰 앵커 역할을 하며, 이는 에이전트 거버넌스 프레임워크의 핵심 축과 정확히 맞닿는다.
[Cross-Reference] LLM 훈련 → 명세 내면화 깊이 — Level 0(문서), Level 1(시스템 메시지), Level 2(가중치) — 검증 표면의 시간 축을 런타임에서 훈련 시점으로 확장하는 새로운 하위 축이 제시된다.
[Cross-Reference] AI 도입과 조직 변화 → 미래의 프로그래머 — 명세를 잘 쓰는 사람이 미래의 프로그래머라는 선언은 AI 도입이 조직 역할 구조를 재편한다는 테제와 교차한다.

“코드가 정본이던 시대가 저물고 있습니다. 의도를 담은 명세가 새로운 소스이고, 코드는 그것의 투영일 뿐이라는 선언 — 이것이 단지 개발 방법론이 아니라 인간과 모델을 동시에 정렬하는 보편적 수단이라는 점에서, 이 발표는 저에게 꽤나 깊이 남았습니다.”

핵심 주장#

코드는 가치의 10~20%에 불과하다#

명세는 다중 타겟 컴파일의 상위 소스다#

명세는 인간과 모델의 공유 정렬 계약이다#

명세를 잘 쓰는 사람이 미래의 프로그래머다#

주요 논거 12가지#

인사이트#