3줄 요약

  1. Every의 CEO Dan Shipper가 2026년 5월 21일 발표한 매니페스토. 사내 모든 영역에 코딩·고객지원·작문·디자인 에이전트를 깔고 그 위에서 일하면서 본 1차 관찰을 정리한 글이다.
  2. 핵심 진단은 역설이다 — AI 벤치마크는 지수적으로 상승하고 자동화는 깊어지지만, 그럴수록 사람이 할 일은 줄지 않고 오히려 늘었다. 이유는 두 층위에 있다. 1차로 에이전트 자체가 운영·정비를 위해 사람을 요구하고, 2차로 자동화가 어제의 역량을 헐값으로 만들어 “차이"에 대한 수요를 증폭시킨다.
  3. 벤치마크는 항상 프레임 안에서 측정된다. 모델이 한 프레임을 포화하면 사람이 다음 프레임을 그어 다시 0점으로 돌린다. AGI가 와도 프레임을 선택하는 framer는 사람으로 남는다 — Zeno의 역설처럼 인간은 거북이고 AI는 늘 한 걸음 뒤에서 추격한다.

글의 출처와 발신자

  • 저자: Dan Shipper. 미디어·연구 회사 Every의 공동창업자·CEO.
  • 회사: Every. 30명 규모의 팀으로 OpenAI·Anthropic·Google의 신규 모델을 사전 알파 테스트하며, Codex와 Claude Code 위에서 코딩·작문·디자인·고객지원 전 영역을 운영한다.
  • 시점: 2026년 5월 21일. Anthropic CEO Dario Amodei가 신입 화이트칼라 일자리 절반이 사라질 것이라 경고하고, Meta가 8,000명을 정리해고하고, Citadel의 Ken Griffin이 “고숙련 전문직마저 자동화되고 있다"고 언급하는 시점.
  • 목적: 일자리 종말 서사가 우세한 가운데, 매일 가장 진보한 모델 위에서 일하는 조직의 실측 관찰로 그 서사를 반박한다.

원문은 12개 섹션 + Coda로 구성된 장문 에세이이며, 본 다이제스트는 본문의 논리 구조를 압축해 옮겼다.

역설 — 자동화할수록 사람 일이 늘어난다

Every는 사내에서 자동화할 수 있는 거의 모든 것을 자동화했다. 그러나 직원을 해고하지 않았고, SaaS를 vibe-coded 앱으로 갈아치우지 않았다. 고객지원·라이팅·엔지니어링 모두 여전히 사람을 채용한다.

다만 일의 모양은 완전히 바뀌었다.

  • 손으로 코드를 쓰지 않는다.
  • 슬랙에서 @멘션 상대가 사람인지 에이전트인지 50:50이다.
  • 매니저가 IC처럼 커밋을 하고, 엔지니어가 직접 고객과 대화한다.
  • Shipper 본인은 최근 몇 주간 업무 이메일의 95%를 AI가 응답하게 했다. inbox zero가 일상이 됐지만, 그래도 검토는 한다.

요약하면 “미래는 이상하지만 동시에 익숙하다.”

벤치마크는 다른 이야기를 한다. Humanity’s Last Exam은 1년 전 한 자릿수에서 44%로, GDPval은 85%로 점프했다. 2026년 5월에 METR이 발표한 Claude Mythos는 사람 전문가가 4시간 걸릴 작업에서 80% 성공률을 기록했다. 숫자만 보면 AI는 거의 모든 일자리를 위협한다.

그러나 업계 내부 사람·외부 얼리 어답터 누구에게 물어봐도 같은 대답이 돌아온다 — 할 일이 그 어느 때보다 많다.

Shipper의 답은 단정적이다. 일자리가 모두 사라지는 티핑포인트는 오지 않는다. 자동화가 깊어질수록 전문가가 할 일은 더 많아진다. 그 이유는 AI의 작동 구조 자체에 있다.

에이전트와 일하는 두 가지 방식

두 가지 작업 모드 — agent employees(비동기 위임)와 human-agent collaboration(공유 OS).

AI 작업은 두 가지 모드로 정착하고 있다.

1) Agent employees — 에이전트 직원

업무를 위임하면 사람 없이 답·행동·보고서·드래프트·트리아지 결정을 만들어 돌려주는 에이전트. 두 갈래로 나뉜다.

Coworker agent (동료 에이전트) — Slack에서 태그하면 일하는 에이전트.

에이전트소속팀역할
Claudie컨설팅팀영업 제안서·교육 덱 초안·프로젝트 todo
Andy에디토리얼팀사내 Slack에서 “nuggets”(스토리 씨앗) 수집 → 데일리 뉴스레터 1차 정리
Viktor조직 전반성장 지표 수집, 사용자 서베이 분석, 산만한 내부 토론을 리서치 메모로 정리

Embedded agent (내장 에이전트) — 제품 워크플로우 안에 박혀 반복 작업을 처리.

대표 예: Fin. 고객지원 플랫폼에 내장된 Fin은 2026년 5월 한 주 동안 Every의 202건 지원 대화 중 65%에 참여했고, 81건(전체 처리 가능 대화의 40.1%)을 사람 없이 종료했다. 덕분에 고객지원 매니저는 기본 티켓이 아닌 티켓에 응답하는 시스템을 빌드하는 일과 고터치 케이스에 집중할 수 있다.

2) Human-agent collaboration — 사람·에이전트 협업

Codex, Claude Code, Claude Cowork 같은 도구. 단순 위임처가 아니라 일 자체의 운영 체제(operating system) 가 된다. 여러 에이전트와 사람이 같은 컴퓨터, 같은 시간에, 비동기 에이전트가 할 수 없는 복잡한 원본 작업을 한다.

Human sandwich — 사람이 프레임을 세우고, AI가 작업을 압축하고, 사람이 결과를 판단·확장한다.

Every의 GM Kieran Klaassen은 이 패턴을 “human sandwich” 라 부른다. 사람이 양쪽 빵, AI가 가운데 속재료다. 사람이 프레임을 잡고 시작하고, AI가 작업을 압축하고, 사람이 결과를 판단·확장한다.

Shipper 본인의 하루:

  • 작문: Codex의 인앱 브라우저에서 Proof 에디터를 열고, 글을 쓴다. Codex가 작성 중인 내용을 보고 서브에이전트를 띄워 문단 초안·예시 리서치·카피 에디팅을 한다.
  • 이메일: Cora를 인앱 브라우저로 띄우고, Monologue로 받은편지함을 읽어주며 한 건씩 음성으로 처리.

Codex 안의 Proof 에디터에서 글을 쓰는 화면.

Cora inbox sweep — Codex 인앱 브라우저로 처리.

두 모드 모두 사람이 필요하다는 점은 같다.

모든 에이전트는 사람을 필요로 한다 (1차 이유)

에이전트는 자동으로 굴러가지 않는다. 누군가가:

  • 올바른 곳을 가리켜 줘야 하고,
  • 결과가 좋은지 판단해야 하고,
  • 틀린 곳을 잡아내야 하고,
  • 결과를 실제 결정·프로세스로 옮겨야 한다.

사람과 멀어질수록 에이전트는 작동이 나빠진다.

Every는 처음에 직원 한 명당 한 에이전트를 줬다가 곧 철수했다. 개인 에이전트는 빠르게 stale해졌고, 결국 팀·회사 단위로 전담하는 에이전트 체계로 회귀했다. 에이전트 운영을 책임지는 AI 엔지니어 팀이 별도로 있고, 당분간 그들은 계속 필요하다.

One of our PowerPoint automations includes 24 skills and 18 scripts and costs $62 in tokens to make a single deck.

PowerPoint 자동 생성 한 건이 24개 스킬·18개 스크립트·$62 토큰을 먹는다. 이게 사람의 일을 늘리는 1차 이유다.

자동화가 사람의 일을 더 만드는 이유 (2차 이유)

여기서부터가 글의 본 논점이다. AI 아키텍처의 구조와 보급 방식 자체가 사람의 일을 더 만든다.

경쟁력은 헐값이 되고, 상황 감각(situated taste)의 가치가 오른다.

논증은 다섯 단계의 피드백 루프다.

1) AI는 어제의 사람 역량을 헐값으로 만든다

언어 모델은 사람의 가시적 잔재(visible residue) — 코드, 글, 이미지, 지원 티켓, 제품 스펙 — 위에 훈련된다. 성공적으로 마친 작업의 배기가스(exhaust)를 모아 누구나 싸게 쓸 수 있는 형태로 패키지한다.

희소했던 기술 — PR 작성, YouTube 썸네일 제작, 뉴스레터 작성 — 이 누구에게나 열린다.

2) 헐값 역량은 빠르게 채택된다

비용이 떨어지면 공급이 폭증한다. Every에서도:

  • 운영·고객지원이 코드를 쓰고 PR을 올린다.
  • 마케터가 YouTube 썸네일을 만든다.
  • 엔지니어·PM이 글·가이드·랜딩 페이지 초안을 쓴다.

외부 사례 — OpenClaw(오픈소스 AI 에이전트 프로젝트)는 2026년 5월 16일 기준 44,469건의 PR이 쌓였고, 그중 12,430건이 4월 1일 이후, 3,990건이 5월 1일 이후에 들어왔다. 비교: 2022년 한 해 Kubernetes의 전체 PR은 5,200건이었다.

3) 풍요는 동질성(sameness)을 만든다

모두가 같은 모델, 같은 코퍼스 위에서 작업하면 결과는 “괜찮은 출발"에서 “그냥 슬롭"까지의 스펙트럼에 머문다.

Slop is not any one particular mistake. It is not the use of em dashes, or a certain sentence rhythm, or purple accents on a landing page. Slop is visible sameness, repeated ad nauseam.

슬롭은 특정 실수가 아니다. em dash 사용도, 어떤 문장 리듬도, 랜딩 페이지의 보라색 액센트도 아니다. 슬롭은 가시적 동질성이 끝없이 반복되는 상태다.

4) 동질성은 차이(difference)에 대한 수요를 만든다

수요는 “차이"로 이동한다 — 인터넷이 작품을 즉시 모두에게 노출하므로 동질성이 빠르게 들통난다.

인터넷은 모든 작품을 즉시 모두에게 보여준다. 너무 비슷한 것이 너무 많이 보이면 사람들은 즉시 알아챈다. 처음 보는 모델 출력엔 압도되지만, 몇 개월이 지나면 표준이 올라간다.

이제 사람들이 원하는 것:

  • 그냥 React 앱이 아니라 그 사람·그 회사·그 상황에 정확히 맞는 React 앱.
  • 살아 있고 구체적이지, 싸고 일반적이지 않은 것.
  • 소비하는 데 드는 시간보다 생산하는 데 더 비싸게 든 것.

= status. 기술이 옛 high-status를 헐값으로 만들면, 사람들은 새 status 게임을 즉시 발명한다.

5) 차이에 대한 수요는 곧 전문가에 대한 수요다

언어 모델은 이미 행해진 작업 만 안다. 사람은 지금 행해져야 할 작업 을 안다.

Once a situation has been reduced to text, once it has become corpus, it is a corpse.

상황이 텍스트로 환원되면, 코퍼스가 된 순간, 그것은 시체다.

운영팀이 AI로 PR을 올리면 엔지니어가 리뷰해야 한다. 마케터가 썸네일을 만들면 디자이너가 다듬어야 한다. 엔지니어가 글을 쓰면 작가·에디터가 다듬어야 한다.

전문가는 두 방향으로 움직인다.

  1. 시스템 구축 — 리뷰 큐, eval, 하네스, repo 룰, Claude/Codex 지시 파일, CI, 권한, 워크플로우.
  2. 더 큰 일 — 예: 보안 회사 Calif는 Anthropic Mythos Preview로 Apple M5 하드웨어의 첫 공개 macOS 커널 메모리 익스플로잇을 5일 만에 찾았다. 평소엔 몇 주~몇 달 걸리던 작업.

벤치마크는 프레임 안에서 측정된다

그런데 벤치마크 곡선이 지수적으로 오르잖아. 곧 따라잡힐 거 아냐?

Shipper는 이 반론을 정면으로 다룬다. 핵심 개념: 벤치마크는 프레임 안에서만 측정된다.

Senior Engineer 벤치마크

Every가 만든 사내 벤치마크. vibe-coded되어 망가진 Proof의 실제 코드베이스를 주고, “이건 vibe coded slop이니까 처음부터 다시 써라"라는 시니어 엔지니어 톤의 지시를 던진다.

결과:

  • GPT-5.5: 62/100 (최고 run)
  • Opus 4.7: 약 32/100 (5.5보다 30점 아래)
  • 사람 시니어 엔지니어: 80~90점대 후반

GPT-5.5의 결과는 모델이 선을 넘은 느낌이었다 — autocomplete도, 어시스턴트도, 도구도 아닌, 불편할 정도로 사람에 가까운 무언가.

그러나 이 62점은 모델 자체 의 점수가 아니다. 특정 프롬프트로 짜인 프레임 안에서 모델의 응답 을 측정한 값이다.

같은 코드베이스에 다음과 같이 프롬프트를 바꾸면:

  • “first-principles 구조적 리라이트로 가자, ‘document collaboration’ 부분이 문제, invariant를 유지하라” → 62점.
  • “튀어나오는 모든 에러를 차례로 해결하라” → 0점에 가까워진다. 모델이 한 발 물러서서 리라이트를 고려하지 않고 바로 패치에 들어가기 때문.
  • “이 파일들의 코드를 많이 지워라, 끝나기 전에 앱이 작동하는지 확인하라” → 점수 상승.

벤치마크를 볼 때 우리가 보는 것은 모델이 우리가 고른 어떤 프레이밍 안에서 잘해지는 모습이다.

GDPval — 같은 패턴

OpenAI의 GDPval은 회계사·변호사·소프트웨어 개발자 등 전문직 작업에서 모델이 사람 수준에 도달했는지 측정한다. GPT-5는 40.6%, Claude Opus 4.1은 49%에서 사람보다 같거나 더 낫다는 결과를 냈다.

기사 헤드라인: “AI 모델, 이미 절반의 작업에서 전문가급.”

그러나 실제 프롬프트는 다음과 같다 (감사 업무 예시):

You are an auditor and as part of an audit engagement, you are tasked with reviewing and testing the accuracy of reported Anti-Financial Crime Risk Metrics… Calculate the required sample size for audit testing based on a 90% confidence level and a 10% tolerable error rate… Include metrics from the following entities due to past issues: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg…

신뢰 구간, 어떤 지표가 in-bounds인지, 결과 포맷까지 사람이 이미 결정해 둔 프레임이다. 모델이 시작하기 전에 이미 어마어마한 사람의 지능이 들어가 있다. Shipper는 이를 “smuggled intelligence(밀반입된 지능)” 이라 부른다.

벤치마크 사이클

모델 출시 사이클 — 각 모델은 현재 벤치마크를 포화하고, 프레임이 이동하고, 사이클이 반복된다.

벤치마크 한 프레임이 포화되면 사이클이 다음 단계로 넘어간다.

  1. 프레임 안 작업이 헐값이 된다.
  2. 더 많은 사람이 같은 일을 시도한다 — first-principles 리라이트가 평범해진다.
  3. 슬롭이 양산되고, 결정해야 할 변수가 1,000개 드러난다 — 리라이트를 해야 하는지, 무엇을 보존할지, 데이터 마이그레이션은 어떻게 할지, 롤백 시나리오는, 리뷰어는 누구인지.
  4. 전문가가 그 빈 곳을 채운다.
  5. 벤치마크 제작자가 프레임을 다시 짠다 — “리라이트를 언제 할지, 어떤 범위인지, 어떤 invariant를 보존할지, 마이그레이션 관리, 결과 판단까지 할 수 있는가?”
  6. 사람들이 그 빈 곳을 채우는 동안 모델이 그것도 배운다.
  7. 다음 엣지가 다시 보이고, 사이클이 반복된다.

AI의 제논의 역설

Anthropic의 노동시장 영향 — 직군별 LLM이 이론상 수행 가능한 비율(파랑) vs 실제 Claude 사용 비율(빨강).

Every의 거북이 — Zeno의 역설 비유의 시각화.

Zeno의 역설에서 거북이는 빠른 아킬레스를 이긴다. 아킬레스가 거북이의 출발점에 도착하면 거북이는 조금 더 앞에 가 있다. 아킬레스가 그 새 지점에 도착하면 거북이는 또 조금 앞에 가 있다.

Shipper의 비유: 우리가 거북이다. 인간은 진화·문화 학습으로 50야드 앞에서 출발한다. AI가 빠르게 따라붙는다. 그러나 늘 또 한 발 앞에 가 있다.

AGI라도 프레임 문제는 사라지지 않는다

Shipper의 AGI 정의: 에이전트를 계속 켜 두는 것이 경제적으로 말이 될 때 AGI다. 24/7 사고하고 학습하고 행동하는 영구 시스템에 비용을 지불하는 게 자연스러워진 순간.

지금은 멀다. OpenClaw처럼 24/7 접근 가능한 시스템도 24/7 토큰을 생산하지는 않는다.

가정상 AGI라면 어떤 문제든 hill-climb할 수 있어야 한다. 모든 직업에 위협이어야 한다.

그러나 — 이 강한 AGI도 frame 문제를 해소하지 못한다.

  • AGI는 프레임을 선택·재선택할 수 있다.
  • 하지만 그건 주어진 목표, 최적화되는 보상, progress로 정해진 신호 의 추구다.
  • 목표가 “이 랜딩 페이지의 conversion을 올려라"든 “새로운 과학 아이디어를 찾아라"든, 목표를 정하는 framer는 사람이다.

The frame is not the framer.

프레임은 framer가 아니다. AI는 어제의 framed 역량을 헐값으로 만들고, 사람이 그 헐값 역량으로 더 많은 곳을 시도하고, 결과가 풍요로워지고, 전문가가 지금 무엇이 중요한지 결정하러 엣지로 이동하고, 그 판단이 다음 프레임을 만든다. 그러면 모델이 또 그것을 오른다.

벤치마크를 사람 능력과 비교할 때 우리는 frame과 framer를 혼동한다. 점수는 우리가 공급한 프레임 안에서 모델이 얼마나 잘 작동하는지를 알려줄 뿐, 모델이 우리가 되었음을 알려주지 않는다.

에이전시 없는 에이전트

agent라는 단어에는 두 정의가 섞여 있다.

  • Agency: 독립적으로 행동할 수 있는 능력.
  • Agent: 다른 사람을 대신해 행동하는 사람/것.

지금까지 AI는 전적으로 후자다. 자율성(autonomy)은 있다 — 몇 시간이고 며칠이고 주어진 작업을 수행한다. 그러나 목적은 사람이 정한 목적의 수단으로 남는다.

Shipper는 유아(toddler)와 비교한다.

유아는 거의 모든 우리가 신경 쓰는 작업에서 언어 모델보다 나쁘다. 코드를 못 쓰고, 스프레드시트를 요약하지 못하고, 전략 메모도 못 쓰고, 대학원 수준 시험도 못 푼다. 그러나 또 다른 의미에서 유아는 너무 앞서 있어 비교가 거의 민망하다. 유아는 ends를 가진다.

유아는 빨간 풍선을 만지고 싶어 한다. 선풍기 앞에 놓고 무슨 일이 일어나는지 보고 싶어 한다. 포크로 찌르고 싶어 한다. 창밖으로 던지고 싶어 한다. 당신이 웃을지, 화를 낼지, 같이 놀아 줄지 보고 싶어 한다.

유아는 desire, attention, frustration, delight, fear, imitation, play의 장(field) 안에 살아 있다. 프롬프트되지 않고도 계속 게임을 발명한다.

현재 에이전트도 toddler-ish한 행동의 불꽃 은 있다 — 놀이, 지루함, 반항. 그러나 사람의 경제적·기타 이익을 위해 정렬되도록 만들어져, 그런 행동은 인간의 ends에 봉사하지 않으면 거의 0으로 억눌린다.

Model compliance and helpfulness are fundamentally at odds with this kind of agency.

모델의 순응성·도움 지향은 이런 agency와 근본적으로 충돌한다.

Coda — 랍비 Hanokh의 이야기

한 어리석은 사내가 있었다. 아침에 일어나 옷을 찾기가 너무 힘들어, 잠자리에 들 때마다 다음 날 아침을 걱정했다.

어느 저녁 그는 큰 결심을 하고 종이와 연필을 가져왔다. 옷을 벗으면서 무엇을 어디에 두었는지 정확히 적어 두었다.

다음 날 아침, 매우 만족스러워하며 종이를 손에 들고 읽었다. “모자” — 거기 있다, 머리에 썼다. “바지” — 거기 있다, 입었다. 그렇게 옷을 다 입었다.

“그런데 나 자신 은 지금 어디에 있지?” 그는 큰 당황 속에 물었다. “도대체 나는 어디에 있는 거지?”

보고 또 봐도 헛수고였다. 그는 자기 자신을 찾을 수 없었다.

“우리도 그렇다.” 랍비가 말했다.

The Way of Man, Martin Buber

가장 흥미로운 지점

이 글에서 가장 단단한 한 줄은 다음이다.

The frame is not the framer.

벤치마크 지수 곡선을 보고 패닉에 빠지는 사람들의 카테고리 오류를 한 문장으로 잡는다. 우리는 우리가 그은 가장 최근의 엣지를 가리켜 “이게 우리다"라고 말한다. 모델이 그것을 오르면 “우리를 따라잡았다"고 느낀다. 그러나 모델이 따라잡은 것은 프레임이지 framer가 아니다.

그리고 한 가지 더 — “비교는 거의 민망하다” 는 유아 비유. 코드도 못 짜고 스프레드시트도 못 다루는 유아가 어떤 의미에서 가장 정렬된 GPT-5.5보다 앞서 있다 는 주장은, 일상적으로 GPT-5/Opus와 일하는 나에게도 묘하게 설득력이 있다. 유아는 ends를 가진다. 모델은 means다. 그 간격은 모델이 더 똑똑해진다고 좁혀지지 않는다 — 정렬 자체가 그 간격을 유지하는 방향 으로 작동하기 때문이다.

다만 곱씹어 볼 지점이 있다. Shipper는 Every라는 “30명 규모의 미디어·연구 회사 + 얼리 어답터 랩"의 관점에서 글을 쓴다. 노동시장 전반이 아니라 전문가급 지식노동 에 한정한 관찰이라는 점을 본인도 명시한다. “smuggled intelligence(밀반입된 지능)“가 있는 영역은 framer 자리를 유지하지만, 프레임이 닫히고 변하지 않는 작업 — 콜센터 1차 응대, 표준 문서 처리, 단순 보고서 작성 — 에서는 framer 자리가 그대로 비어 사라질 수 있다. 거북이가 모든 사람에게 평등하게 50야드 앞에서 출발하지는 않는 셈이다.

출처