KAIST, 멀티모달 LLM 개발…"시각 성능 GPT-4V보다 뛰어나"

기자정보, 기사등록일
조현미 기자
입력 2024-06-20 15:26
    도구모음
  • AI 기사요약
  • * AI기술로 자동 요약된 내용입니다. 전체 맥락과 내용을 이해하기 위해서는 기사 본문 전체를 보시길 권장합니다

    한국과학기술원(KAIST)은 노용만 전기·전자공학부 교수 연구팀이 공개형 멀티모달 초대형언어모델(LLM)을 개발해 출시했다고 20일 밝혔다.

    KAIST 미래국방 인공지능 특화연구센터와 전기·전자공학부가 지원한 이번 연구 성과는 세계 최대 인공지능(AI) 모델 플랫폼인 허깅페이스에서 '화제의 논문'으로도 꼽혔다.

    노 교수는 "이번 멀티모달 모델이 허깅페이스 추천과 다양한 사회관계망서비스(SNS)를 통해 세계 연구자에게 알려지고 있다"고 소개하며 "공개형으로 출시한 만큼 멀티모달 LLM 발전에 이바지할 것"이라고 말했다.

  • 글자크기 설정
노용만 한국과학기술원KAIST 전기·전자공학부 교수 연구팀이 개발한 멀티모달 초대형언어모델LLM 콜라보 시연 영상 자료KAIST
노용만 한국과학기술원(KAIST) 전기·전자공학부 교수 연구팀이 개발한 멀티모달 초대형언어모델(LLM) '콜라보' 시연 영상 [자료=KAIST]

한국과학기술원(KAIST)은 노용만 전기·전자공학부 교수 연구팀이 공개형 멀티모달 초대형언어모델(LLM)을 개발해 출시했다고 20일 밝혔다.
 
노 교수팀이 개발한 LLM은 '콜라보(CoLLaVO)'와 '모아이(MoAI)' 2종이다. 이들은 오픈AI 'GPT-4V' 등 기업에 비공개하고 있는 멀티모달 모델보다 시각 성능이 뛰어나다고 KAIST는 설명했다.

콜라보는 일차원적인 시각 구분 능력을 크게 높인 게 특징이다. 이미지 정보를 배경과 물체 단위로 분할하고, 배경·물체 정보를 멀티모달에 직접 넣는 '크레용 프롬프트'라는 기능을 탑재했다. 지난달엔 자연어처리(NLP) 분야에서 권위 있는 국제학회인 '전산언어학회(ACL Findings)' 승인을 획득했다. 

물체 존재·상태, 배경·텍스트 이해 등으로 상황을 판단하는 인지과학적인 요소에 영감을 받아 만든 모아이는 높은 장면 이해 기능을 갖췄다.

 
노용만 한국과학기술원KAIST 전기·전자공학부 교수 사진KAIST
노용만 한국과학기술원(KAIST) 전기·전자공학부 교수 [사진=KAIST]

KAIST 미래국방 인공지능 특화연구센터와 전기·전자공학부가 지원한 이번 연구 성과는 세계 최대 인공지능(AI) 모델 플랫폼인 허깅페이스에서 '화제의 논문'으로도 꼽혔다.
 
노 교수는 "이번 멀티모달 모델이 허깅페이스 추천과 다양한 사회관계망서비스(SNS)를 통해 세계 연구자에게 알려지고 있다"고 소개하며 "공개형으로 출시한 만큼 멀티모달 LLM 발전에 이바지할 것"이라고 말했다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
실시간 인기
기사 이미지 확대 보기
닫기