LG AI연구원이 캐나다 밴쿠버에서 열리고 있는 세계 최대 컴퓨터 비전 학회에 참가했다.
LG AI연구원은 지난 18일(현지시간) ‘CVPR 2023’에서 이미지 검색 시장에 변화를 가져올 ‘캡셔닝 인공지능(AI)’을 외부에 처음 공개했다고 19일 밝혔다.
이는 생성형 AI 상용화 서비스로 인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있다. 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 만든다.
AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 이해하고, 설명할 수 있도록 ‘제로샷 이미지 캡셔닝’ 기술을 적용했다는 게 연구원 측 설명이다.
기존에 학습한 대량 이미지와 텍스트 데이터를 기반으로 이미지상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명할 수 있게 한다.
캡셔닝 AI는 대량의 이미지를 관리해야 하는 기업의 업무 효율성과 생산성을 높일 수 있다. 문장이나 단어의 길이와 개수에 따라 다르지만, 평균적으로 5개 문장과 10개의 키워드를 10초 내 생성한다. 이미지 범위를 1만 장으로 확장하면 2일 이내 작업을 끝낼 수 있어 빠른 시간 안에 맞춤형 이미지 검색·관리 시스템 구축이 가능하다.
이번 결과는 LG AI연구원과 셔터스톡(Shutterstock) 간 긴밀한 협력이 있어 가능했다. 셔터스톡은 시각 콘텐츠가 매일 수십만개 이상 새롭게 추가되는 세계 최대 플랫폼 기업으로 콘텐츠를 분석하고 처리하는 경험이 풍부한 전문가가 포진해 있다. 셔터스톡과 데이터 학습부터 서비스 개발까지 함께해 완성도를 높였다.
아울러 LG AI연구원은 제로샷 이미지 캡셔닝을 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍을 진행했다. 상반기에 진행한 LG 글로벌 AI 챌린지 시상식도 열렸다.
김승환 LG AI연구원 비전랩장은 “이번 워크숍은 첫 번째 상용화 서비스인 캡셔닝 AI 발표와 연계돼 있어 더욱 의미가 깊다”며 “이미지 캡셔닝 분야의 글로벌 연구 리더십을 확보하기 위해 다양한 파트너와 유기적인 협력 체계를 구축해 새로운 평가 지표 개발과 신기술 연구를 계속 추진할 계획”이라고 말했다.
LG AI연구원은 지난 18일(현지시간) ‘CVPR 2023’에서 이미지 검색 시장에 변화를 가져올 ‘캡셔닝 인공지능(AI)’을 외부에 처음 공개했다고 19일 밝혔다.
이는 생성형 AI 상용화 서비스로 인간처럼 처음 보는 이미지까지 자연어로 설명할 수 있다. 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 만든다.
AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 이해하고, 설명할 수 있도록 ‘제로샷 이미지 캡셔닝’ 기술을 적용했다는 게 연구원 측 설명이다.
캡셔닝 AI는 대량의 이미지를 관리해야 하는 기업의 업무 효율성과 생산성을 높일 수 있다. 문장이나 단어의 길이와 개수에 따라 다르지만, 평균적으로 5개 문장과 10개의 키워드를 10초 내 생성한다. 이미지 범위를 1만 장으로 확장하면 2일 이내 작업을 끝낼 수 있어 빠른 시간 안에 맞춤형 이미지 검색·관리 시스템 구축이 가능하다.
이번 결과는 LG AI연구원과 셔터스톡(Shutterstock) 간 긴밀한 협력이 있어 가능했다. 셔터스톡은 시각 콘텐츠가 매일 수십만개 이상 새롭게 추가되는 세계 최대 플랫폼 기업으로 콘텐츠를 분석하고 처리하는 경험이 풍부한 전문가가 포진해 있다. 셔터스톡과 데이터 학습부터 서비스 개발까지 함께해 완성도를 높였다.
아울러 LG AI연구원은 제로샷 이미지 캡셔닝을 주제로 서울대 AI대학원, 셔터스톡과 함께 워크숍을 진행했다. 상반기에 진행한 LG 글로벌 AI 챌린지 시상식도 열렸다.
김승환 LG AI연구원 비전랩장은 “이번 워크숍은 첫 번째 상용화 서비스인 캡셔닝 AI 발표와 연계돼 있어 더욱 의미가 깊다”며 “이미지 캡셔닝 분야의 글로벌 연구 리더십을 확보하기 위해 다양한 파트너와 유기적인 협력 체계를 구축해 새로운 평가 지표 개발과 신기술 연구를 계속 추진할 계획”이라고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지