"한국어 LLM 보다 정확하게 평가한다"…네이버, 한국판 MMLU 공개

윤선훈 기자입력 2024-02-21 17:15

기사공유
폰트크기

네이버클라우드 하이퍼클로바X팀과 오픈소스 언어모델 연구팀 '해례' 간 협업

사진네이버 논문 갈무리 — K-MMLU를 통해 주요 거대언어모델의 한국어 처리 성능 지표를 공개한 벤치마크 결과를 정리한 표. [사진=네이버클라우드 게재 논문 갈무리]

네이버가 한국어 거대언어모델(LLM)의 성능을 보다 정확하게 평가할 수 있는 맞춤형 AI 테스트 지표를 공개했다.

21일 업계에 따르면, 네이버클라우드 하이퍼클로바X팀은 지난 18일 논문 사전공개 사이트 '아카이브(arXiv)'와 AI 오픈소스 커뮤니티 '허깅페이스'를 통해 'K-MMLU(Measuring Massive Multitask Language Understanding in Korean)'를 공개했다. 네이버클라우드는 오픈소스 언어모델(LM) 연구팀인 '해례(HAERAE)' 팀과 협업을 통해 이를 구축했다.

MMLU(대규모다중작업언어이해)는 AI 테스트의 일종이다. 수학·물리학·역사·법률·의학·윤리 등 57개의 주제를 복합적으로 활용해 AI의 지식과 문제 해결 능력을 평가하는 지표다. 오픈AI와 구글 등 LLM 선두 업체들도 MMLU 결과를 토대로 자사 모델의 우수성을 설명한다. 다만 기존 MMLU는 아무래도 영어에 기준이 맞춰져 있었다. 즉 K-MMLU를 통해 한국어 LLM의 성능을 객관적으로 짚어볼 수 있는 셈이다.

K-MMLU 개발팀은 아카이브에 게재된 논문 소개글에서 "기존 영어 벤치마크를 번역한 한국어 벤치마크와 달리, K-MMLU는 한국어 시험에서 데이터를 직접 수집해 한국어의 언어적·문화적 측면을 반영한다"고 설명했다. 이를 통해 한국어는 물론 한국에 특화된 다양한 지식들까지 평가할 수 있다. 향후 한국어 LLM이나 sLLM을 만드는 개발자들이 이를 통해 언어모델의 성능을 보다 정확하게 확인할 수 있게 될 전망이다.

관련기사

한편 이날 하정우 네이버 퓨처 AI 센터장은 자신의 페이스북을 통해 K-MMLU로 평가한 하이퍼클로바X의 평가 결과를 공개했다. 이에 따르면, 하이퍼클로바X는 K-MMLU 평가 항목 중 '한국 특화 지식(Korea-Specific)'에서 제미나이 프로(42.94), GPT-4(54.89)보다 더 높은 55.21점을 기록했다. 한국 문화나 법‧제도를 묻는 질문에 대해서는 하이퍼클로바X가 GPT-4나 제미나이 프로보다 더 정확한 답을 낼 수 있다는 의미다.

한국 특화 지식이 아닌 일반적인 지식 측면에서는 GPT-4가 60.49점으로 하이퍼클로바X(54.32)를 앞섰다. 다만 여기서도 하이퍼클로바X는 제미나이 프로(48.64)와 GPT-3.5 터보(42.47)를 제치며 전반적인 한국어 처리 능력이 우수함을 입증했다.