'싼 게' 일냈다
미국 실리콘밸리에 중국산 '검은 백조(black swan)'가 나타났다. 중국의 작은 퀀트투자자산운용사 출신인 1985년생 CEO가 만든 '딥시크(Deep Seek)'라는 AI모델이 미국 AI시장은 물론이고 주식시장, 정치, 사회를 모두 뒤집어 놓았다. 자본금 1000만 위안(약 19억원)짜리 AI 모델회사가 미국 빅테크회사 임원 한 명의 연봉도 안 되는 558만 달러의 훈련비용으로 챗GPT 수준의 성능을 가진 AI모델을 출시했기 때문이다
Deep Seek는 미국의 대중국 AI칩 수출 통제로 엔비디아 고성능 칩이 수입되지 않는 중국에서 앤비디아의 저성능 칩인 H800을 단지 2048개를 써서 만들었다, 이 소식에 AI칩의 독점 공급자로 떼돈 벌던 엔비디아는 17% 주가 폭락을 경험했고 이튿날 반등했지만 다시 하락세로 돌아섰다. 이미 영악한 투자가들은 냄새를 맡고 고개를 돌린 것이다.
2023년 7월에 설립된 1년 반 된 AI회사가 세계 최고 회사 수준의 AI모델을 출시했다는 것도 쇼크지만 연구원 수가 139명에 불과하고 이들 모두 미국에서 공부한 적이 없는 순수 중국 토종 엔지니어라는 점에서 'AI는 미국 출신 아니면 안 된다'는 일반적인 통념에 찬물을 끼얹었다. ChatGPT를 개발한 OpenAI 팀에는 연구원 1200명이 있다.
'딥시크(Deep Seek)'의 4가지 비밀
미국의 빅테크들은 수백억~수천억 달러를 퍼부어 대형 AI모델을 만든다고 난리법석인데 중국은 신생 스타트업, 그것도 증권투자를 하는 투자공학 모델을 만들던 퀀트펀드 회사가 만든 AI모델이 세계 최강의 챗GPT의 성능과 비슷한 모델을 만들자 미국 빅테크들은 멘붕 상태에 빠졌다.
그간 한국의 DRAM업체가 최첨단 EUV장비로 대충 설계해서 기계의 힘으로 돈으로 반도체 만들다가 돈이 없어 맨땅에 헤딩하고 구식장비로 공정 개선해서 제품을 만들어낸 마이크론이나 중국의 CXMT 같은 후발 업체에 뒤통수 맞은 것과 같은 현상이 미국에서도 일어난 것이다.
Deep Seek의 AI 모델이 미국 빅테크 기업의 거대 모델보다 파격적으로 저렴한 이유는 효율적인 자원 이용과 혁신기술 이용, 비용 효율적인 개발 전략, 인재 관리 때문이다.
첫째, 자원 활용 측면에서 Deep Seek는 2048개의 엔비디아 H800 GPU만을 사용하여 모델을 훈련시켰다. 이는 다른 AI 선두 기업들이 H100, A100 등 고성능 칩을 1만6000개 이상 사용하는 것과 대조적이다.
Deep Seek 모델 개발은 엔비디아의 CUDA까지 우회하고 엔비디아 GPU 저수준 어셈블리 언어 PTX를 최적화해 최대 성능을 구현했다고 한다. PTX는 자동차를 개조하는 것과 같은 원리다. 단순히 액셀러레이터를 밟는 것이 아니라 엔진의 모든 부분을 직접 튜닝하여 최대 성능을 끌어냈다는 것이다.
둘째, 혁신기술 적용이다. 1) MLA(Multi-head Latent Attention): 이 기술은 메모리 사용량을 대폭 감소시켜 모델 운영의 효율성을 높였다 2) MoE(Sparse Mixture of Experts): 이 방식은 계산 비용을 절감하여 저비용·고효율 모델 개발을 가능하게 했다. 3)강화학습 기반 접근: Deep Seek는 강화학습(RL)을 적극 활용하여 모델의 추론 능력을 향상시켰다. 이 방법은 지도학습 데이터 없이도 모델이 스스로 학습하고 진화할 수 있게 했다.
셋째, 비용 효율적인 개발 전략이다. DeepSeek-V3 모델은 약 557만6000달러의 비용으로 개발되었다. Deep Seek는 이러한 효율적인 개발 방식을 바탕으로 매우 경쟁력 있는 가격을 제시하고 있다. 예를 들어, DeepSeek-R1 모델의 사용 비용은 백만토큰당 16위안(약 2.20달러)으로, OpenAI의 가격 438위안(60.2달러)의 27분의 1 수준에 불과하다
넷째, Deep Seek의 CEO 량원펑의 인재관리 전략이다. 량원펑은 현재 중국의 AI와 국제 최고 수준과 상당한 격차가 있음을 숨기지 않는다. 그리고 국제 수준과 동일한 효과를 달성하려면 모델 구조, 훈련 역학 및 데이터 효율성이 4배 이상 필요하다고 본다. 그리고 그는 그 해법을 신선한 아이디어를 가진 젊은 인재에서 찾았다.
량원펑은 '진정한 해자(垓子)'는 팀의 지속적인 혁신 능력에 있다고 본다. 그래서 Deep Seek는 경력직 고위 기술 전문가를 모집하지 않는다. 직원의 근무경력은 3~5년 정도이며, 연구개발(R&D) 경력이 8년 이상인 사람은 무조건 채용에서 제외한다는 것이다. 이유는 그런 경력자들은 혁신할 동기가 부족하기 때문이다.
'딥시크(Deep Seek) 서프라이즈'의 후폭풍
미국의 빅테크와 AI 그리고 정부까지 나서서 중국 AI를 공격하고 통제하겠지만 이미 미국의 AI 철옹성에 구멍이 뚫렸다. 미국은 애써 '찻잔 속 태풍'이라고 쓸어 묻고 싶지만 Deep Seek 서프라이즈의 후폭풍이 만만치 않을 것 같다. 마치 알파고처럼 세계 AI의 판도를 바꾸는 변곡점이 될 가능성이 있다.
첫째, AI는 미국 중심의 GPU와 자금력의 경쟁에서 미국 이외 지역 중심의 알고리즘과 아키텍처, 엔지니어링 혁신 경쟁으로 새로운 경쟁구도를 만들 가능성 높다.
둘째, 폐쇄(Closed Source)와 개방(Open Source)의 싸움에서 항상 승자는 개방이라는 것을 증명했다. 성을 쌓는 자는 필패하고 성 밖으로 공격하러 가는 자가 항상 승리한다. 정작 Open AI는 폐쇄하고 Deep Seek는 오픈하는 데서 승부가 갈렸다. Deep Seek가 개방해버리자 정작 Open AI는 Open할 게 없다.
셋째, AI의 세계에 '검은 백조(Black Swan)'가 계속 등장할 수 있다. Deep Seek 출현 이후 AI 세계가 미국이 가는 길이 반드시 정답이라는 주술과 환상에서 깨어 났기 때문이다.
넷째, 제2, 제3의 Deep Seek가 중국에서 지속적으로 출현한다. 흙수저 마윈이 성공한 이후 수천~수만의 '마윈 키즈'가 등장해 중국의 플랫폼산업을 세계 1위로 끌어 올렸다
다섯째, 중국판 'AI 진주만 습격사건'은 Deep Seek가 끝이 아니라 시작이다. 단 한 명도 미국에서 공부한 적이 없는 Deep Seek 연구진이 좋은 사례다. 중국의 대학 졸업자는 연간 1200만명이고 그중 절반이 이공계다. 매년 600만명의 이공계 중 누가 또 새로운 Deep Seek가 될지 모른다.
전병서 필자 주요 이력
▷칭화대 석사·푸단대 박사 ▷대우경제연구소 수석연구위원 ▷반도체IT 애널리스트 ▷경희대 경영대학원 객원교수 ▷중국경제금융연구소 소장
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지