업스테이지는 한국지능정보사회진흥원(NIA)와 공동으로 운영하는 '오픈 코(Ko)-LLM'이 12일부터 새로운 벤치마크를 적용한 시즌2로 전면 개편된다고 밝혔다. LLM을 평가하는 기준을 새롭게 바꾼다는 의미다.
오픈 Ko-LLM 리더보드는 지난해 9월 민관협력을 통해 개설된 국내 최대 개방형 한국어 초거대언어모델(LLM) 평가 체계다. 지난달 말 기준 산·학·연 각 분야에서 1700여개가 넘는 LLM 모델이 제출됐다.
업스테이지 측은 시즌2 개편 사유로 "최근 LLM 기술이 빠르게 발전해 1년전에 만든 평가 기준에 변화가 필요해졌다"고 설명했다.
새롭게 추가된 기준은 △Ko-GPQA(대학원 수준 추론) △Ko-위노그란데(상식 추론) △Ko-GSM8K (초등수학) △Ko-EQ-Bench(감성) △KorNAT-Social-Value(사회적 가치) 등 총 9개다.
업스테이지 측은 기존엔 LLM의 근본적 언어능력에 초점을 맞췄다면 새 시즌에선 문제해결력 등 실용적인 부분에 집중했다고 전했다. 이를 위한 지표를 촘촘히 구성해 고성능 모델의 옥석을 가려낼 수 있을 거란 기대다.
김성훈 업스테이지 대표는 "새롭게 개편된 리더보드를 통해 한국어 LLM 성능 평가의 기준점을 한 단계 더 높일 것으로 기대한다"며 "앞으로 업스테이지는 글로벌 표준을 뛰어넘는 국내 인공지능(AI) 생태계 강화에 앞잘 설 것"이라고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지