![사진트웰브랩스](https://image.ajunews.com/content/image/2025/02/12/20250212082401733160.jpg)
지난 2023년 11월 처음 공개된 페가수스는 트웰브랩스가 자체 개발한 800억 파라미터(매개변수) 규모의 초거대 영상언어 생성 모델(Video Language Foundation Model)이다. 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 영상 기반 텍스트 생성 기능을 선보였다.
이번에 공개된 페가수스-1.2는 기존 버전을 더욱 강화했다. 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력이 한층 올라갔으며, 짧은 영상부터 1시간짜리 장편 영상까지 다양한 길이의 영상을 높은 정확도로 처리할 수 있다. 또 영상을 효율적으로 저장·재사용하는 기술로 이미 한 번 처리한 영상은 다음 분석 시 더 빠르고 경제적으로 처리 가능하다는 설명이다.
트웰브랩스 관계자는 "영상의 맥락과 세부 내용을 정확하게 파악해 요약본, 하이라이트, 상세 보고서 등 다양한 형태의 텍스트로 만들어내는 능력은 실제 산업 현장에서 큰 활용 가치를 가질 것으로 기대된다"고 말했다.
트웰브랩스는 페가수스-1.2를 향후 다양한 분야에서 활용한다. 엔터테인먼트 분야에서는 영상 콘텐츠 분류와 하이라이트 추출에 활용 가능하며, 교육 분야에서는 강의 영상 요약과 키포인트 추출이 가능하다. 보안 분야에서는 CCTV 영상 분석 및 이상 징후 탐지에 적용할 수 있다.
이승준 트웰브랩스 최고기술책임자(CTO)는 "영상 이해를 위해서는 화면 속 객체들의 공간적 관계, 시간에 따른 변화, 전후 맥락 간의 복잡한 상호작용을 모두 파악할 수 있는 고도화된 AI 모델이 필요하다"며 "페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고, 다양한 산업 현장의 요구사항을 충족시킬 수 있게 됐다"고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지