알리바바가 오픈AI의 최신 모델 'GPT-4 터보' 성능을 뛰어넘는 퉁이첸원(通義千問) 2.5버전을 공개했다. 퉁이첸원은 알리바바가 지난해 챗GPT 대항마로 내놓은 자체 개발 인공지능(AI) 챗봇이다.
9일 계면신문 등 중국 매체에 따르면 알리바바는 이날 퉁이첸원의 전 버전(2.1) 대비 이해력(9%)과 논리적 추론 능력(16%), 명령어 이행 능력(19%), 코딩 능력(10%) 등이 전반적으로 상향된 퉁이첸원 2.5를 공개했다.
저우징런 알리바바 최고기술책임자(CTO)는 퉁이첸원이 중국산 대규모언어모델(LLM) 최초로 LLM 성능 측정 프로그램 오픈컴퍼스(OpenCompass) 테스트에서 GPT-4 터보와 동일한 점수를 받았다고 설명했다. 중국어에 있어 텍스트를 이해하고 생성하는 능력, 전문 지식 등에 대한 질의응답 능력, 채팅(대화) 능력 등 여러 항목에서 GPT-4를 능가한다는 것이다.
사실 지난해부터 중국 업계에서는 챗GPT를 벤치마킹한 LLM을 내놓은 것이 일종의 트렌드로 자리 잡았다. 그 결과 중국의 LLM 기술은 지난 1년 동안 폭발적으로 성장했고, 다수의 중국 기업들이 챗GPT에 대적할 만한 모델들을 선보이고 있다.
칭화대 기초모델연구센터와 중관춘 연구소가 지난달 말 발표한 보고서에 따르면 바이두의 원신이엔(어니봇)은 이해력 및 독해력, 아이플라이텍의 싱훠는 수학 문제 풀이, 음성 상호 작용 등에 있어 역시 GPT-4 터보를 능가한다. 이밖에 AI 전문 기업 센스타임, 신흥 강자 문샷AI 등도 최근 GPT-4 터보에 대적할 만한 챗봇을 내놓은 바 있다.
다만 중국 기업들이 개발한 LLM이 다양한 분야에서 활용되기 위해서는 아직 미국 등의 기술과 격차가 있다는 지적이 나온다. 중국어 환경에 있어서는 확실히 챗GPT를 능가할 만한 성능을 보여주고 있지만, 전문 분야에서 신뢰할 수 있을 만한 정보를 제공하기 위해서는 복잡한 추론과 문제 해결 능력 등이 부족하다는 것이다.
상하이 AI연구소의 린다화 수석 과학자는 "LLM이 점차 상용화되면 기업의 재무 보고서 심지어는 산업 분야의 기술 문서를 분석해야 하는데, (중국 모델들의) 계산 능력이 걸림돌이 될 수 있다"고 말했다.
한편, 퉁이첸원 2.5 출시 소식에 홍콩 증시에서 알리바바 주가는 장중 1% 가까이 뛰었다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지