서희스타힐스

"초거대 AI 연구 확대"…카카오브레인, 7억4000만개 데이터셋 공개

기자정보, 기사등록일
최은정 기자
입력 2022-08-30 12:04
    도구모음
  • 글자크기 설정
  • 31일 공식 홈페이지에 업로드

김일두 카카오브레인 대표[사진=카카오브레인]


카카오브레인이 초거대 인공지능(AI) 연구 개발의 저변을 확대하기 위한 목적으로 국내 최대 규모의 이미지-텍스트 데이터셋을 외부에 공개한다.

카카오브레인은 약 7억4000만개의 이미지-텍스트로 이뤄진 데이터셋 '코요(Coyo)'를 31일 카카오브레인 공식 홈페이지에서 공개한다고 30일 밝혔다. 초거대 AI 개발의 기반이자 기업의 핵심 자산인 데이터셋을 외부에 공개하는 것은 이례적이다.

데이터셋은 초거대 AI 모델이 정교한 결과값을 구현하는 데 필요한 핵심 요소 중 하나다. 대다수 기업들은 AI의 높은 성능을 위해 수작업으로 이미지-텍스트 쌍을 맞춰 데이터셋을 수집하는데, 이때 높은 비용과 많은 시간이 투입된다.

카카오브레인은 독자 개발한 기술로 이미지-텍스트를 온라인에서 자동으로 수집, 투입 비용·시간을 줄이고, 동시에 양질의 데이터를 선별해 높은 성능을 구현했다. 유수 글로벌 AI 기업에서 공개한 초거대 AI 모델 재현을 통해 교차 검증을 마치며 데이터의 품질도 확인했다.

코요 명칭은 멕시코의 대표 화가 프리다 칼로(Frida Kahlo)의 고향인 멕시코시티 '코요아칸(Coyoacán)'의 앞 글자를 딴 것이다. 칼로가 코요를 기반으로 탄생한 것처럼 코요를 통해 수많은 AI 모델이 개발됐으면 하는 포부가 담겼다. 코요는 카카오브레인이 앞서 공개한 초거대 AI 이미지 생성 모델 'RQ-트랜스포머'와 AI 아티스트 '칼로' 개발에 적용됐다.

카카오브레인은 코요를 한국어를 비롯한 여러 언어로 개발하며 세계 최대 수준의 데이터셋으로 키울 방침이다. 내년 상반기에는 코요 데이터셋을 활용한 초거대 AI 모델을 추가로 공개한다.

김일두 카카오브레인 대표는 "이번 데이터셋 공개는 초거대 AI 기술 개발에 박차를 가할 중요한 근간이자 이정표가 될 것"이라며 "다방면으로 기술 리더십을 선도하고 AI 커뮤니티와 협력하며 AI 생태계 발전에 이바지하겠다"고 말했다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
실시간 인기
기사 이미지 확대 보기
닫기