김 대표는 29일 아주경제가 주최한 '2023 제1회 초거대 인공지능 포럼'에 기조연설자로 참석해 초거대 AI가 기존 AI·소프트웨어(SW)와 어떤 차이점이 있는지 설명했다.
김 대표는 먼저 "사람이 도구를 사용해 문명을 일군 것처럼 초거대 AI도 API라는 도구를 활용해 다양한 업무를 처리하고 있다"고 밝혔다.
대표적인 사례로 오픈AI가 최근 공개한 GPT-4를 꼽았다. 마이크로소프트 리서치의 관련 논문에 따르면 GPT-4는 AGI(인간 같은 AI)의 초기 버전 같은 면모가 있다.
김 대표는 "초거대 AI는 인터넷·모바일보다 더 큰 패러다임 시프트를 가져올 것"이라며 "산업혁명의 비견되는 AI혁명으로 표현할 수 있다"고 말했다.
산업혁명은 인간이 하던 물리적 활동을 기계가 대신하면서 인간의 생산성이 올라간 것이다. 마찬가지로 AI혁명은 인간이 하던 지적 활동을 AI가 대신함으로써 인간의 지적 생산성이 올라가는 것이라고 김 대표는 강조했다.
김 대표는 AI혁명 시대에 대응하기 위해 한국 기업·정부는 세 가지 관점의 전환을 이뤄야 한다고 밝혔다.
첫째로 딥러닝(인공신경망)을 포함한 AI 모델은 더 똑똑해진 소프트웨어가 아닌 새로운 형태의 소프트웨어임을 인식해야 한다.
기존 SW는 사람이 어떻게 일할지 코드로 하나씩 알려주는 형태로 만들었지만, AI는 어떻게 일해야 하는지 가르쳐야 한다. 일례로 오픈AI는 초거대 AI 개발을 프로그래밍이 아닌 개를 훈련하는 과정에 비교했다. 인간의 지적 활동의 원리를 딱 짚어 표현할 수 없는 것처럼 초거대 AI의 지적 활동도 정확한 원리를 파악하기 어렵다.
둘째로 AI가 잘못된 답변을 하면 데이터를 수정하면 된다고 생각해선 안 된다. 잘못된 말을 하는 AI 모델을 열어보면 알 수 없는 숫자만 가득할 뿐이다. 이를 두고 김 대표는 "지속해서 양질의 데이터를 학습시켜서 AI가 잘못된 답변을 하는 빈도를 줄이는 게 최선"이라고 강조했다.
김 대표에 따르면 프로그래밍을 배운 AI와 일반 대화 문서를 배운 AI를 비교하면 대화를 배운 AI가 더 논리적인 답변을 할 것 같지만, 실제로는 프로그래밍을 배운 AI가 더 논리적인 답변을 하는 경우가 많았다. 코딩을 배움으로써 AI의 논리력이 올라가고, 논리력을 바탕으로 문제 해결 능력이 향상되는 원리다.
그런 점에서 초거대 AI는 언어의 장벽에 구애받지 않는다. 김 대표는 "GPT-4가 GPT-3.5보다 한국어 답변 능력이 향상된 배경에는 영어 데이터 학습으로 논리력을 향상한 것이 있다"며 "물론 한국어 데이터도 전보다 더 많이 배웠겠지만, 부족한 논리력은 방대한 영어 데이터 학습으로 해결한 것으로 보인다"고 설명했다.
때문에 향후 전 세계 초거대 AI 경쟁에서 언어 장벽은 사라지고 AI 모델 역량만 중요해질 것으로 예측했다. 김 대표는 "AI 역량을 끌어올리려면 대량의 데이터가 필요하다. AI 모델의 크기는 '뇌 용량', 데이터의 규모는 '경험'에 비유할 수 있다. 결국 경험이 더 중요해질 것"이라고 말했다.
이러한 경험의 대표적인 사례로 스캐터랩이 개발한 언어모델 '이루다 2.0'이 마치 사람처럼 대화를 주고받을 수 있는 것을 꼽았다. 김 대표는 "이루다에 서울 성수동의 좋은 점을 설명하면서 성수동으로 오라고 했을 때 이루다가 성수동에 대해 논평하리라 예측했다. 하지만 정작 이루다의 답변은 '성수동에 너가 있어서 좋다'였다. AI가 경험을 통해 사람의 사회성을 학습한 사례"라고 밝혔다.
셋째로 초거대 AI 개발 경쟁에 앞서기 위해 '선 공개, 후 개선' 절차를 확립해야 한다.
김 대표는 "기업이 AI를 완벽하게 만들어야 한다는 오해를 풀어야 한다. 안전을 위한 최소한의 장치(세이프티 필터)만 갖추고 빠르게 AI를 출시해서 데이터를 모으고 개선해야 한다. 오픈AI와 마이크로소프트가 챗GPT·GPT-4로 초거대 AI 경쟁에서 앞서가는 이유가 여기에 있다"고 말했다.
이어 김 대표는 한국 기업·정부가 AI 학습을 위한 대량의 데이터를 확보하기 위해 공동으로 고민할 필요성이 있다고 주장했다. 영어권에서 AI 스타트업이 빠르게 확산될 수 있는 배경에는 인터넷에 있는 대량의 언어 데이터만 수집해서 외부에 공개하는 비영리단체(NGO)가 있는 것이 꼽힌다. 한국도 AI 학습을 위한 데이터가 공개되어 있지만 그 규모가 수백MB(메가바이트)로 영어권과 비교해 터무니 없이 부족하다는 것이 김 대표의 지적이다.
마지막으로 김 대표는 "인터넷에 있는 언어 데이터는 법으로 그 지위가 명확히 규정되지 않은 회색 지대에 있는 것이 사실이다. 하지만 법적 갈등이 무서워서 이를 초거대 언어모델 학습에 활용하지 않으면 (한국이) 글로벌 AI 경쟁에서 뒤쳐질 수밖에 없을 것"이라고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지