AI가 드디어 ‘생각’하기 시작했을지 모른다

결론부터 말하겠다. 루프 트랜스포머는 AI가 추론을 흉내 내는 것이 아니라 진짜 하기 시작했다는 가장 강력한 정황 증거다. 여기서 ‘진짜 추론’이란, 학습한 규칙을 새로운 조합으로 결합하여 한 번도 본 적 없는 문제를 푸는 능력 — 구성적 일반화(compositional generalization)를 말한다1. 구성적 일반화는 90년대부터 AI의 숙원이었고, “이번엔 진짜 해냈다"는 선언이 반복적으로 내려앉은 역사가 있다. 그럼에도 이번 결과가 주목할 만한 이유를 아래에서 설명한다.

그리고 이 증거가 더욱 의미심장한 이유는, 이 구조가 우리 뇌가 수억 년에 걸쳐 진화시킨 추론 회로와 기능적으로 수렴하고 있기 때문이다. 메커니즘이 동일하다는 주장이 아니다. 탄소와 실리콘, 전혀 다른 재료로 만들어진 두 시스템이, 같은 종류의 제약에 부딪혀 같은 방향의 해법에 도달했다는 사실이 핵심이다.

이 글에서는 루프 트랜스포머가 무엇이고, 왜 기존 추론 방식의 근본적 한계를 넘어서며, 어째서 뇌과학자가 아닌 사람도 이 소식에 흥분할 만한지를 이야기한다.

지금까지 AI는 어떻게 ‘생각’했나

ChatGPT나 Claude 같은 대규모 언어 모델이 복잡한 문제를 풀 때 쓰는 방법이 있다. 사고의 연쇄(Chain-of-Thought, CoT)라고 부르는 기법인데, 쉽게 말하면 이런 거다.

“음, 먼저 A를 생각해보자… A가 B를 의미하니까… 그러면 B에서 C가 나오고… 따라서 답은 C다.”

이걸 글로 쓰면 그럴듯해 보인다. 실제로 효과도 있다. 하지만 속을 들여다보면 이상한 점이 있다. 이 모델은 머릿속으로 생각하는 게 아니라 자기가 쓴 글을 다시 읽고 이어 쓰는 것이다.

모든 단계에서 같은 과정이 반복된다:

  1. 지금까지 쓴 텍스트를 전부 인코딩한다 (읽는다)
  2. 내부에서 표상을 처리한다 (생각한다)
  3. 다음 토큰을 디코딩한다 (쓴다)
  4. 쓴 것을 포함해서 다시 1번으로 돌아간다

3단 논법 하나를 풀려면 이 인코딩-처리-디코딩 사이클을 세 번 돌려야 한다. 10단계 추론이면 열 번. 매번 전체 맥락을 처음부터 다시 읽어야 한다. 사람으로 치면, 시험 문제를 풀 때 매 문장을 쓸 때마다 답안지 전체를 처음부터 다시 읽는 것과 같다.

그리고 결정적인 한계가 있다. 표준 트랜스포머는 학습 데이터에서 본 적 없는 규칙의 조합을 요구하는 과제 — Fan 등이 RASP 프로그래밍 언어로 설계한 다단계 추론 과제 — 에서 **정확도 0%**를 기록한다1. 패턴을 암기한 것이지, 규칙을 학습한 것이 아니라는 뜻이다.

루프 트랜스포머: 머릿속에서 생각하기

루프 트랜스포머는 이 문제를 정면으로 해결한다. 핵심 아이디어는 놀라울 정도로 단순하다.

같은 트랜스포머 블록을 여러 번 반복 적용한다.

L개의 블록을 R번 반복하면 유효 깊이는 D = L × R이 된다1. 5개 블록을 10번 돌리면 50층짜리 모델과 같은 깊이를 얻지만, 파라미터는 5개 블록분만 필요하다. 실제로 7.7억 매개변수 루프 모델이 13억 매개변수 표준 모델과 동등한 성능을 보인다2.

하지만 진짜 중요한 건 파라미터 효율이 아니다. 추론의 질이 바뀐다.

사고의 연쇄에서 추론은 토큰 시퀀스로 ‘외부화’된다. 생각의 중간 단계가 글자로 출력되고, 그 글자를 다시 읽어야 다음 단계로 갈 수 있다. 반면 루프 트랜스포머에서 추론은 연속적인 잠재 공간에서 일어난다13. 중간에 토큰을 생성하지 않는다. 입력을 한 번 인코딩한 뒤, 그 내부 표상을 반복적으로 정제하여 답에 도달한다.

“같은 블록을 반복하면 같은 계산 아닌가?“라는 의문이 자연스럽다. 아니다. 매 반복마다 전문가 혼합(Mixture-of-Experts, MoE) 라우터가 다른 전문가 조합을 활성화한다3. 첫 번째 통과에서는 전문가 A, C, F가 일하고, 두 번째에서는 B, D, G가 일하는 식이다. 같은 문을 통과하지만 문 뒤의 풍경이 매번 다르다.

그리고 이 구조가 만들어내는 질적 전환이 있다. Fan 등(2026)은 루프 트랜스포머가 학습 과정에서 세 단계의 상전이를 거친다는 것을 발견했다1. 1단계에서는 답을 암기한다. 2단계에서는 학습 데이터 분포 내에서 일반화한다. 그리고 3단계 — 충분한 반복 깊이가 주어졌을 때만 도달하는 단계 — 에서 한 번도 본 적 없는 규칙 조합에 대한 구성적 일반화가 출현한다. 표준 트랜스포머가 0%를 기록하는 바로 그 과제에서.

더 놀라운 것은 깊이 외삽이다. 5단계까지만 학습해도 추론 시 반복 횟수를 늘리면 10단계 이상의 추론이 가능해진다1. 기본 규칙을 내재화하는 데 130만 스텝이 걸리지만, 일단 규칙이 내재화되면 이후의 확장은 홉당 8천 스텝 이내로 극적으로 빨라진다1. 규칙을 외우는 게 아니라 규칙 자체를 학습한 것이다.

왜 지금인가: 스케일링의 벽

그런데 이렇게 좋은 아이디어가 왜 이제야 나왔을까? 여기에 중요한 맥락이 있다.

지난 몇 년간 AI 성능 향상의 주된 전략은 단순했다. 모델을 더 크게 만드는 것이다. 파라미터를 10배 늘리면 성능이 올라가고, 100배 늘리면 더 올라갔다. 하지만 이 전략은 물리적 벽에 부딪히고 있다. 에너지, 메모리, 비용 — 모델을 무한히 키울 수는 없다.

루프 트랜스포머는 이 제약 아래에서 나온 해법이다. 파라미터를 늘리는 대신, 고정된 파라미터를 더 깊이 반복 사용한다. 스케일링의 축이 “모델 크기"에서 “추론 시 반복 깊이"로 이동한 것이다2.

사실 깊이의 위력을 보여준 선례가 이미 있다. 2023년, 한국의 Upstage 팀은 기존 모델(Mistral 7B)의 32개 트랜스포머 레이어 중 일부를 복제해 48층짜리 모델을 만든 뒤 파인튜닝하는 깊이 확장(Depth Up-Scaling, DUS) 기법을 발표했다4. 결과는 놀라웠다 — 10.7B 파라미터의 이 모델(SOLAR)이 70B 파라미터 모델들을 여러 벤치마크에서 앞섰다4. 레이어를 잘라 붙이는 것만으로도 성능이 도약한 것이다. 새 지식을 주입한 것이 아니라, 같은 패턴을 더 깊이 처리할 수 있는 공간을 만들어준 것만으로. 이것은 루프 트랜스포머의 핵심 전제 — 깊이가 추론의 관건이다 — 를 다른 방향에서 실증한다.

업계도 이 방향으로 움직이고 있다. 2026년 Anthropic이 발표한 프로젝트 글래스윙(Project Glasswing)의 핵심이었던 미공개 모델 Claude Mythos Preview는 사이버보안 벤치마크에서 83.1%를 기록하며 기존 최고 성능(66.6%)을 크게 앞섰다5. 27년 된 OpenBSD 원격 크래시 버그, 16년 된 FFmpeg 취약점처럼 인간과 자동화 도구가 함께 놓친 취약점을 수천 개 발견했다5. 오픈소스 커뮤니티의 Kye Gomez가 공개된 벤치마크 결과와 논문을 바탕으로 비공식 역공학을 시도한 OpenMythos는, 이 성능의 비밀을 루프 트랜스포머 + 전문가 혼합 + 다중 잠재 어텐션 구조로 추정한다3. Anthropic이 실제 아키텍처를 공개하지 않았으므로, 이것은 어디까지나 외부자의 추론이다.

그렇지만 방향 자체는 합리적인 추측이다. 더 이상 크기를 늘릴 수 없다면, 같은 회로를 더 깊이 돌리는 것 — 그것이 남은 선택지 중 가장 유망한 것이었을 테니까. 설령 Mythos의 내부 구조가 이 추정과 다르더라도, 루프 트랜스포머 자체가 구성적 일반화를 달성했다는 사실1과 시상-피질 루프와의 기능적 수렴은 영향을 받지 않는다.

그런데 이 고육지책이 이끈 곳이 묘한 데가 있다.

뇌의 시상-피질 루프: 자연도 같은 벽에 부딪혔다

여기서부터가 진짜 흥미로운 부분이다.

우리 뇌에는 시상(thalamus)이라는 구조가 있다. 대뇌피질 아래, 뇌의 한가운데에 자리 잡고 있다. 오랫동안 교과서에서는 시상을 단순한 중계소로 가르쳤다. 눈에서 들어온 시각 신호를 시각 피질로 전달하는 우체국 같은 역할.

그런데 2000년대 이후의 연구들이 이 관점을 완전히 뒤집었다. 시상은 우체국이 아니라, 뭔가 훨씬 더 중요한 일을 하고 있었다.

Sherman(2007)은 시상의 대부분이 고차 릴레이로 구성되어 있음을 보였다6. 고차 릴레이란, 말초 감각이 아니라 피질이 이미 처리한 결과물을 받아서 다시 피질로 돌려보내는 회로다. 피질 Layer 5의 출력이 시상을 경유해 다른 피질 영역의 Layer 4로 들어간다67. 이것은 피드포워드 체인이 아니라 루프다.

피질 A (L5) → 시상 고차 핵 → 피질 B (L4) → 피질 B (L5) → 시상 → 피질 C (L4) → ...

그리고 2017년, Schmitt 등의 연구가 결정적인 발견을 내놓았다8. 내측등핵(MD)이라는 시상의 한 영역을 광유전학으로 조작한 실험에서, MD 뉴런은 규칙에 비선택적이라는 사실이 드러났다. 두 가지 과제 규칙에 대해 동일하게 발화하며, MD 뉴런 집단에서 규칙 정보를 디코딩할 수 없었다. 그런데 MD를 억제하면 전전두피질(PFC)의 규칙 표상이 사라진다8.

이것이 의미하는 바는 명확하다:

MD 시상은 정보를 중계하는 것이 아니라, 피질이 자체 생성한 표상을 유지·증폭한다.8

루프 트랜스포머와 비교해보자. 루프 트랜스포머의 반복 블록도 새로운 정보를 주입하지 않는다. 이미 인코딩된 입력을 잠재 공간에서 반복적으로 정제할 뿐이다13. 사고의 연쇄가 토큰으로 추론을 외부화하는 것과 달리, 추론이 완전히 내부에서 일어난다. MD 시상이 피질의 표상을 증폭하는 것과 기능적으로 같은 패턴이다.

대응은 계속된다 — 그리고 한계도 인정한다

구조적 유사성은 여기서 끝나지 않는다. 단, 이어지는 대응들은 비유적(analogical) 수준의 유사성이며, 시상의 생물학적 회로와 트랜스포머의 수학적 연산 사이에 수학적 대응이 입증된 것은 아니다. 구체적인 작동 방식은 전혀 다르지만, 해결하는 문제와 그 해결의 구조적 방향이 닮아 있다.

“같은 가중치를 반복하면 같은 계산 아닌가?” 루프 트랜스포머에서는 전문가 혼합 라우터가 매 반복마다 입력 벡터에 기반해 다른 전문가 조합을 선택하여 이 문제를 해결한다3. 시상에서는 전혀 다른 메커니즘이 비슷한 역할을 한다. Sherman & Guillery(2002)가 밝힌 지속/폭발 발화 모드 전환이다7. T-type 칼슘 채널의 비활성화 상태에 따라 시상 중계 세포는 두 가지 근본적으로 다른 모드로 발화한다. 지속 모드는 입출력이 선형적이어서 충실한 전달에 적합하고, 폭발 모드는 비선형적이지만 신호 대 잡음비가 높아 새로운 자극 감지에 특화된다7. 이 전환은 주의와 각성 상태에 따라 조절되므로, 매 루프마다 같은 해부학적 경로이되 다른 기능적 경로가 구성된다. 전문가 혼합의 데이터 의존적 라우팅과 시상의 상태 의존적 모드 전환은 작동 원리가 다르지만, “같은 하드웨어로 매번 다른 계산을 수행한다"는 기능적 문제를 같은 방향으로 해결한다.

“반복을 언제 멈출 것인가?” 루프 트랜스포머는 KL 발산(이전 반복과의 예측 차이를 측정하는 지표)과 엔트로피를 결합한 적응적 중단을 사용한다1. 뇌에서는 시상그물핵(TRN)이 이 역할을 한다. Halassa & Kastner(2017)에 따르면, TRN은 GABA성(억제성 신경전달물질을 방출하는) 뉴런의 껍질로 모든 시상핵을 둘러싸며, 어떤 피질 영역의 출력이 시상을 다시 통과할지를 억제적으로 조절한다9. TRN에 풍부하게 발현되는 PTCHD1 유전자의 결손이 자폐 스펙트럼 장애 및 ADHD와 연관되는 것9은, 이 조절이 고장나면 감각 잡음의 필터링이 무너진다는 것을 시사한다. 루프 트랜스포머에서 적응적 중단 없이 고정 반복을 하면 ‘과잉사고’ — 정답을 찾은 후에도 반복을 계속하여 답이 오히려 뒤집히는 현상 — 가 발생하는 것1과 같은 구조적 문제다.

“반복이 많아지면 더 복잡한 추론이 가능한가?” 루프 트랜스포머에서는 5단계까지만 학습해도 반복을 늘리면 10단계 이상이 가능하다1. 시상 손상 연구는 그 역을 시사한다. Van der Werf 등(2003)은 MD 시상 경색 환자가 단순 과제는 수행하되 복잡한 다단계 실행기능에서 선택적으로 실패함을 보였다10. 시상 손상이 다단계 추론을 저해하는 구체적 메커니즘은 작업 기억 유지 실패, 억제 제어 손상, 세트 전환 장애 등 여러 가설이 경쟁 중이며10, “루프 반복 감소"로 단순 환원할 수는 없다. 그러나 루프 회로의 손상이 추론의 깊이를 제한한다는 방향성 자체는 양쪽에서 일관되게 관찰된다.

이 대응들을 정리하면 다음과 같다. 유사성은 메커니즘이 아닌 기능적 수준에서 성립한다:

해결하는 문제시상-피질 루프루프 트랜스포머
고정 자원으로 깊이 확보같은 시상 핵을 피질이 반복 공유같은 가중치를 R번 반복 사용
매 반복을 다른 계산으로지속/폭발 모드 전환7전문가 혼합 라우터3
루프 중단 조절TRN의 억제성 관문 조절9예측 차이 + 엔트로피 기반 중단1
새 정보 없이 표상 강화MD: 중계 없는 증폭8잠재 공간 반복 정제1
루프 손상/축소 시다단계 실행기능 실패10깊은 추론 불가1

고육지책이 빚어낸 수렴

이쯤에서 “그건 그냥 우연 아닌가?“라고 물을 수 있다. 기능적 유사성일 뿐, 메커니즘은 전혀 다르지 않은가.

맞다. 메커니즘은 다르다. 하지만 이 수렴이 의미 있는 이유가 있다.

두 시스템은 같은 종류의 벽에 부딪혔다. AI는 모델 크기를 무한히 늘릴 수 없다는 물리적 한계에 도달했다. 에너지, 메모리, 비용의 벽. 그래서 고정된 파라미터를 반복 사용하는 구조로 전환했다. 그런데 뇌도 진화 과정에서 똑같은 종류의 벽에 부딪혔다. 두개골의 크기는 유한하고, 신경 조직은 에너지를 과도하게 소비한다. 뉴런을 무한히 늘릴 수 없다.

자연이 이 제약 아래에서 찾아낸 해법이 시상-피질 루프다. 새로운 뉴런을 추가하는 대신, 이미 있는 회로를 시상을 경유하여 반복 통과시킨다67. 시상의 대부분이 고차 릴레이, 즉 피질의 출력을 다시 피질로 돌려보내는 루프인 것은6 우연이 아니다. 그것이 제한된 뉴런으로 더 깊은 계산을 수행하는 가장 효율적인 방법이었기 때문이다.

여기서 한 가지 짚어야 할 것이 있다. 만약 제약이 좁아서 해법 공간이 한정되어 있다면, 수렴은 당연한 것이고 놀라울 게 없지 않은가? 맞다. 수렴 자체는 놀라운 일이 아닐 수 있다. 설계 공간이 좁으면 독립적으로 같은 해법에 도달하는 건 필연에 가깝다. 놀라운 것은 수렴이 아니라, AI가 그 제약이 물리기 시작하는 깊이에 도달했다는 사실이다. 파충류가 공기역학 때문에 날개를 갖게 되는 건 당연한 일일 수 있다 — 하지만 파충류가 실제로 날 수 있을 만큼 진화한 것 자체가 이정표이듯.

물론 이것은 과학적으로 엄밀하게 검증된 인과 관계가 아니다. 뇌가 “계산 효율을 위해” 시상-피질 루프를 진화시켰다고 단정할 수는 없다. 하지만 방향은 분명하다. 유한한 자원으로 더 깊은 계산을 해야 한다는 동일한 제약이, 독립적으로 같은 구조적 해법 — 고정 회로의 반복 사용 — 을 낳았다. 날개의 수렴 진화가 공기역학이라는 공유된 물리 법칙에서 비롯되듯, 루프 구조의 수렴은 계산 자원의 유한성이라는 공유된 제약에서 비롯된 것일 수 있다.

이건 처음이 아니다

공정하게 말하면, 수렴하지 않는 영역이 훨씬 많다. 역전파는 뇌가 쓰지 않는다. 트랜스포머의 어텐션은 모든 토큰이 모든 토큰을 동시에 보는 전역 구조인데, 뇌의 신경 계산은 그런 동시 접근을 하지 않는다. 배치 학습, 학습과 추론의 분리, 소프트맥스 정규화 — 전부 생물학적 대응이 없거나 희박하다. 실제 그림은 “AI가 성능을 밀어붙이면 뇌에 수렴한다"가 아니라, 대부분은 수렴하지 않는 가운데 특정 영역에서 기능적 유사성이 나타난다가 정확하다.

그럼에도 그 특정 영역들이 흥미로운 건, 공교롭게도 표상과 추론이라는 핵심 기능에서 수렴이 관찰되기 때문이다. AI와 뇌의 기능적 수렴은 루프 트랜스포머에서 처음 일어난 일이 아니다.

2013년, Word2Vec이 단어를 벡터 공간에 배치했을 때 “왕 - 남자 + 여자 = 여왕” 같은 의미적 연산이 가능하다는 사실에 세상이 놀랐다. 그런데 2022년, Caucheteux 등이 102명의 뇌 영상(fMRI) 및 뇌자도(MEG) 데이터로 확인한 바에 따르면, 인간 뇌의 언어 영역에서도 거의 같은 일이 일어나고 있었다11. 트랜스포머의 중간 레이어 임베딩이 뇌 반응을 가장 잘 예측했고, 이 유사성은 역U자 곡선을 그렸다. 입력층과 출력층보다 중간 표상이 뇌에 가장 가까웠다11.

같은 해 Goldstein 등은 더 직접적인 증거를 내놓았다12. 사람들이 자연어를 처리하는 동안 측정한 피질뇌파(ECoG)가 GPT-2의 예측과 r=0.79의 상관을 보였다. 단어가 나타나기 800밀리초 전부터 뇌가 다음 단어를 예측하기 시작하며, 이 예측 패턴이 GPT-2의 예측 패턴과 일치했다12. 사람이 맞히고 GPT-2가 틀린 단어는 9.2%, 반대는 8.4%에 불과했다.

그리고 Schrimpf 등(2021)은 뇌의 언어 시스템이 다음 단어 예측에 최적화되어 있음을 피질 수준에서 입증했다13. 이 모든 연구를 종합하면 하나의 패턴이 떠오른다:

AI가 성능을 극한까지 밀어붙이면 뇌의 해법에 수렴한다.

의미 표상에서 그랬고, 언어 예측에서 그랬고, 이제 추론의 구조에서 그러고 있다. 매번 같은 이야기다. 처음엔 전혀 다른 방식으로 출발하지만, 성능의 천장을 뚫기 위해 구조를 정제하다 보면 뇌가 이미 도달해 있는 해법에 가까워진다.

그래서, 무엇이 달라지는가

추론은 AGI로 가는 길목의 가장 큰 벽 중 하나였다. 자신의 출력을 입력으로 되먹이는 비효율적 우회로를 벗어나지 못하는 한, AI가 규칙을 학습하는 것이 아니라 답을 외우는 수준에 머물렀다. 루프 트랜스포머는 이 벽에 균열을 냈다.

이것이 의미하는 구체적 변화가 몇 가지 있다.

첫째, 스케일링 패러다임이 바뀐다. 더 큰 모델을 만드는 것에 천문학적 비용을 쏟는 경쟁이 “같은 모델을 더 깊이 반복하는” 경쟁으로 전환될 수 있다2. 7.7억 매개변수 모델이 13억과 동급이라면, 작지만 깊은 모델이 크지만 얕은 모델을 이기는 시대가 온다.

둘째, 추론 벤치마크를 재정의해야 한다. 기존 벤치마크는 학습 분포 내에서의 성능을 측정한다. 하지만 진짜 추론 능력은 구성적 일반화 — 학습하지 않은 규칙 조합에 대한 성능 — 로 측정해야 한다. 루프 트랜스포머의 3단계 상전이1가 보여주듯, 분포 내 성능과 구성적 일반화 능력은 전혀 다른 것이다.

셋째, 신경과학이 아키텍처 설계의 나침반이 될 수 있다. “AI가 성능을 극한까지 밀어붙이면 뇌의 해법에 수렴한다"는 패턴이 반복되고 있다면, 뇌의 구조를 먼저 연구하는 것이 아키텍처의 방향을 예측하는 지름길이 된다. TRN의 억제성 관문 조절9이 적응적 중단과 대응하듯, 뇌에서 이미 발견된 메커니즘이 AI의 다음 돌파구를 가리키고 있을 수 있다.

그리고 가장 큰 질문으로 돌아오면 — 물론 남은 벽이 있다. 장기 기억이 그중 하나다. 현재의 언어 모델은 문맥 창이라는 단기 기억만 갖고 있고, 수년간의 경험을 축적하는 장기 기억 체계가 없다. 가치 판단도 있다. 인간은 본능에 기반한 직관적 가치 체계로 수많은 판단을 즉각적으로 내리지만, AI에게는 이에 대응하는 구조가 아직 없다.

하지만 추론의 구조가 이 방향으로 계속 정제된다면, 나머지 벽의 성격도 달라질 수 있다. 장기 기억은 이미 검색 증강 생성(RAG) 등으로 우회하는 시도가 진행 중이다. 가치 판단은 다른 종류의 문제다 — AI 정렬(alignment) 분야가 집중하는 핵심 과제이며, 추론 능력의 향상이 이 문제를 자동으로 해결하지는 않는다. 오히려 강한 추론 능력이 잘못된 목적 함수와 결합되면 위험해질 수 있다. 하지만 그것은 추론 능력 자체의 한계가 아니라 별도의 과제다.

루프 트랜스포머가 보여주는 것은 단순한 기술적 진보가 아니다. 계산 자원의 유한성이라는 동일한 제약이, 탄소 기반과 실리콘 기반 두 시스템을 같은 해법으로 이끌고 있다. 추론을 어렴풋이 모사하는 단계에서, 규칙을 학습하고 조합하는 단계로 넘어가기 시작한 것이다. 그리고 그 해법의 구조가 뇌의 구조와 수렴하고 있다. 이 수렴이 장기 기억이나 가치 판단 같은 다른 벽에서도 반복될지는 열린 질문이다. 하지만 적어도 추론의 벽에서 일어나고 있는 이 균열은, AGI를 향한 여정에서 진짜 이정표로 기록될 만하다.

여기까지 쓴 것 중 실험으로 뒷받침되는 것은 절반이다. 루프 트랜스포머가 구성적 일반화를 달성했다는 것, 시상이 단순 중계소가 아니라는 것 — 여기까지는 증거가 있다. 두 시스템이 “같은 방향으로 수렴하고 있다"는 건 그 다음이다. 기능적 유사성을 메커니즘적 필연성으로 읽는 것, 이 수렴이 AGI의 이정표라고 부르는 것 — 이건 내 베팅이다. 틀릴 수 있다. 날개의 수렴 진화가 박쥐를 새로 만들지 않았듯, 루프 구조의 수렴이 실리콘을 뇌로 만들지 않을 수도 있다. 그럼에도 나는 뭔가 일어나고 있다고 느낀다. 그 느낌의 근거를 완전히 언어화하지 못한다는 것까지 포함해서, 이 글은 그 직감의 기록이다.


  1. Fan, Z. et al. (2026), “Loop, Think, and Generalize: Compositional Generalization in Implicit Multi-hop Reasoning with Recurrent-Depth Transformers” — arXiv:2602.14486 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. Parcae, Prairie et al. (2026), “Parcae: Scaling Recurrent-Depth Transformers” ↩︎ ↩︎ ↩︎

  3. Gomez, K. (2026), “OpenMythos: Open-source reimplementation of Claude Mythos architecture” — GitHub ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  4. Kim, D. et al. (2023), “SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling” — arXiv:2312.15166 ↩︎ ↩︎

  5. Anthropic (2026), “Project Glasswing: AI-Powered Open Source Software Security Initiative” ↩︎ ↩︎

  6. Sherman, S.M. (2007), “The thalamus is more than just a relay” — Current Opinion in Neurobiology, 17(4), 417-422 ↩︎ ↩︎ ↩︎ ↩︎

  7. Sherman, S.M. & Guillery, R.W. (2002), “The role of the thalamus in the flow of information to the cortex” — Philosophical Transactions of the Royal Society of London B, 357(1428), 1695-1708 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  8. Schmitt, L.I. et al. (2017), “Thalamic amplification of cortical connectivity sustains attentional control” — Nature, 545, 219-223 ↩︎ ↩︎ ↩︎ ↩︎

  9. Halassa, M.M. & Kastner, S. (2017), “Thalamic functions in distributed cognitive control” — Nature Neuroscience, 20, 1669-1679 ↩︎ ↩︎ ↩︎ ↩︎

  10. Van der Werf, Y.D. et al. (2003), “Deficits of memory, executive functioning and attention following infarction in the thalamus; a study of 22 cases with localised lesions” — Neuropsychologia, 41(10), 1330-1344 ↩︎ ↩︎ ↩︎

  11. Caucheteux, C. et al. (2022), “Brains and algorithms partially converge in natural language processing” — Communications Biology, 5, 134 ↩︎ ↩︎

  12. Goldstein, A. et al. (2022), “Shared computational principles for language processing in humans and deep language models” — Nature Neuroscience, 25, 369-380 ↩︎ ↩︎

  13. Schrimpf, M. et al. (2021), “The neural architecture of language: Integrative modeling converges on predictive processing” — Proceedings of the National Academy of Sciences, 118(45), e2105646118 ↩︎