솔트룩스가 자체 거대언어모델(LLM)인 '루시아(LUXIA) GPT'를 정식 공개했다. 솔트룩스는 그간 축적해 온 데이터의 선행학습과 다양한 접근법을 통해 기존 시중에 나온 LLM 대비 할루시네이션(환각현상)을 크게 줄일 수 있다고 강조했다.
이경일 솔트룩스 대표는 7일 서울 코엑스에서 열린 'SAC2023' 기조연설에서 "루시아GPT는 GPT-4 대비 할루시네이션을 43% 줄였다"라며 "검색 증강 생성(RAG) 기법과 지식그래프를 활용한 사실·지식 그라운딩(FG)를 통해 할루시네이션을 크게 줄였다"라고 강조했다.
루시아GPT는 그간 솔트룩스가 축적해 온 한국어 데이터를 약 1테라바이트(TB) 이상 사전 학습했다. 솔트룩스가 행정안전부·특허청 등 다양한 분야의 사업을 수행하며 수집한 데이터다. 솔트룩스에 따르면 이는 책 420만권 분량의 정보량이다. 이를 토대로 기업이나 정부 등에서 루시아GPT를 활용할 경우 추가 학습을 통해 루시아GPT의 역량을 더욱 강화시킬 수 있는 구조다. 법률·특허·금융·교육 등 각 전문 분야에 최적화된 맞춤형 언어모델을 공급하는 것이 솔트룩스의 목표다.
솔트룩스가 루시아GPT를 개발하면서 가장 주력한 것은 생성 AI의 고질적인 문제로 꼽히는 할루시네이션 빈도의 감소다. 생성 AI는 질문에 대해 그럴듯한 답을 하는 과정에서 간혹 사실과 전혀 다른 엉뚱한 답변을 정답처럼 언급하는 경우가 많다. 챗GPT, 클로바X 등 주요 생성 AI 서비스도 이 현상에서 완전히 자유롭지 못하다. 솔트룩스에 따르면 RAG와 FG 등의 방식을 통해 오픈AI의 GPT-3.5와 메타의 '라마(Llama) 2' 대비 한국어 할루시네이션 평가에서 약 40% 더 우수한 성능을 구현하는 데 성공했다.
이경일 대표는 이어진 기자간담회에서 "안티-할루시네이션은 저희가 오랫동안 연구해 왔던 기능"이라며 "실시간으로 검색한 것을 최적화시켜서 정답을 찾아 사람처럼 바로 생성하는 것뿐만 아니라, 자체 자식그래프를 활용해서 정확도를 높이고자 한다"라고 말했다. 솔트룩스가 AI 기술 연구 과정에서 강조해 온 '뉴로-심볼릭' 기술이 루시아GPT에도 적용됐다. 이를 통해 더 많은 답변을 하면서도 더 정확한 답변을 하도록 하는 데 집중했다.
루시아GPT의 매개변수(파라미터)는 최소 70억개에서 최대 1000억개까지 다양하다. 다양한 파운데이션 모델을 통해 기업간거래(B2B) 내 여러 분야에 루시아GPT를 접목하겠다는 방침이다. 이와 함께 미세 조정 학습데이터 세트를 노코드 기반 언어모델 구축 솔루션인 '랭기지 스튜디오(Language Studio)'와 함께 제공한다. 복잡한 코딩이나 개발자 없이도 고객은 보안에 강한 온프레미스(On-premise) 등 다양한 환경과 니즈에 적합한 언어모델을 사용 목적과 예산에 맞춰 도입 가능하다.
지난달 24일 출시한 네이버의 LLM '하이퍼클로바X'에 대해서는 1대1 비교는 어렵지만, 서로 다른 방향에서 강점을 가질 수 있다고 봤다. 이경일 대표는 "하이퍼클로바X는 대중이 일반적으로 쓰는 서비스인 반면 솔트룩스는 굉장히 전문성 있는 분야를 목표로 한다"라고 말했다. 자동차 엔지니어, 반도체 전문가, 금융 애널리스트 못지 않은 능력으로 전문 영역을 공략하겠다는 포부다.
솔트룩스는 루시아GPT를 활용해 챗GPT나 클로바X 등 일반인도 바로 이용할 수 있는 별도의 챗봇을 만들 계획은 아직 없다고 밝혔다. 다만 루시아GPT를 도입하는 기업에서 이를 활용한 B2C 서비스를 만든다면 일반 이용자도 루시아GPT 기반의 챗봇을 접할 수 있을 전망이다. 솔트룩스는 자회사인 플루닛 등을 통해 개인용 AI 비서 서비스인 '손비서' 등 다양한 소비자용 서비스를 출시할 예정이다.
솔트룩스는 이미 루시아GPT를 통한 B2B 매출이 발생하고 있다며, 내년 6월까지 관련 매출이 증가할 것이라고 자신했다. 이경일 대표는 "이미 2개월 전부터 금융 기업과 거대 글로벌 기업 등에서 루시아GPT를 도입했고 이를 토대로 크지는 않지만 매출이 나기 시작했다"라며 "루시아 도입을 요청한 대형 기업만 80곳 정도 되며 내년 상반기까지 지속적으로 관련 논의가 진행 될 것"이라고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지