[광화문 뷰] 데이터에 큰돈 쓸 준비 되셨나요

AI 만들고 도입·활용하는 모든 조직에 '데이터 확보' 숙제

세상에 공짜는 없다. 인공지능(AI) 시대에도 마찬가지다. 누구든 AI 시스템을 도입하고 활용하려면 비용을 치러야 한다. 특히 AI를 만들고 움직이는 데 필요한 데이터를 공짜로 얻어 쓰기는 어렵다. 이전부터 그래 왔지만 앞으로 더 어려워진다. 오히려 사람들이 AI로 가치를 얻는 과정에 데이터는 가장 비싼 자원이 된다. 데이터는 단순히 전산실 컴퓨터에 잘 입력된 데이터베이스 기록만 가리키는 게 아니다. 앞으로 물리·디지털 세계에서 어떤 형태로 존재하는 지식재산(IP)이든 AI 시스템에 집어넣으면 쓸 만한 결과를 제공하고, 더 쓸 만한 AI 시스템을 만드는 데 동원할 수 있다면 가치 있는 데이터로 취급된다. 챗GPT처럼 어떤 주제든 대화하고 질문에 답하는 AI 챗봇 서비스를 만드는 데는 기존 AI보다 더 방대한 데이터가 쓰였고, 현재 전 세계 사용자가 이 서비스에 입력한 명령도 결국 시스템 개선을 위한 데이터로 수집되고 있다.

네이버 파파고 번역이나 스노우 앱의 AI 프로필 기능은 AI 시스템에서 사용자에게 가치를 제공하는 ‘서비스’ 부분에 해당한다. 이 서비스를 작동하게 만드는 ‘엔진’은 AI 모델이라고 불리는 컴퓨터 프로그램이다. AI 모델은 저마다 서비스 목적에 맞는 알고리즘과 데이터로 만들어진다. 서비스 목적이 다르면 모델을 만들기 위한 알고리즘과 데이터도 달라야 한다. 전 세계 AI 연구자들이 유용한 알고리즘과 이를 변형·조합해 발전시킨 설계 기법을 만들고 검증해 공개해 왔기 때문에 AI 모델을 만들기 위한 알고리즘은 다양하고 풍부하다. 반면 AI 모델 제작자가 이 알고리즘과 함께 쓸 데이터는 대체로 부족하다. 대다수 국가기관, 학술단체, 민간기업은 그런 데이터를 거저 내놓지 않는다. 자체 예산을 들여 수집·축적한 데이터를 AI 모델에 써도 좋다고 쾌척하는 일은 드물다. 데이터를 공개하더라도 사용 범위나 목적에 제한을 둔다.

따라서 누구든지 직접 만들거나 돈을 주고 사 오지 않는 한 AI 개발(모델 훈련) 단계에 쓸 데이터를 확보하는 것부터 쉽지 않다. 챗GPT를 만든 미국 회사 오픈AI도 이 서비스의 엔진에 해당하는 AI 모델 ‘GPT’ 시리즈를 만들면서 훈련을 위한 데이터 확보가 관건이었을 것이다. 산업계는 오픈AI가 명시적 권리가 없는 인터넷 자료를 ‘웹 크롤링’ 같은 방법으로 긁어모았을 것으로 의심한다. 초거대 AI 솔루션을 상업용 서비스 제공 목적으로 개발하면서 ‘필요한 데이터를 모두 자체 구축’했거나 ‘외부 저작권자와 계약해 권리를 보유’했다고 명시한 곳을 찾기 어렵다. 이미 오픈AI 외에 마이크로소프트, 구글 등이 인터넷에 공개된 자료를 AI 개발에 무단 사용했다는 의심을 받고 소송에 휘말렸고 국내에서도 AI 개발에 사용된 뉴스나 웹툰 등 데이터에 대해 생산자가 저작권 침해 문제를 제기하는 추세다.

AI 개발 업체가 모델 훈련을 위한 데이터 사용 대가를 치러야 하는 것과 별개로, 만들어진 AI 기술을 도입하려는 기업은 이 기술을 제대로 활용하기 위해 필요한 데이터 구축과 관리에 힘을 쏟아야 한다. 챗GPT처럼 이미 만들어진 AI 서비스는 일반적인 개념을 다루는 소비자나 학생의 일상·학업에 유용하지만 조직 내부에 축적된 데이터 없이는 일반 기업 실무나 경영·관리에 도입할 수 없다. 기업용 AI 솔루션 업체들이 제공하는 모든 AI 시스템은 이를 도입하려는 기업에서 보유한 데이터 자산과 결합해 활용하는 것을 전제로 한다. 데이터 자산은 어느 날 갑자기 뚝 떨어지는 게 아니라 조직이 기록 전산화, 업무 자동화 등 기초적인 디지털화 과정을 거쳐야 형성된다.

지금 AI를 활용해 이런저런 실험을 하고 있다고 얘기하거나 어느 정도 성과를 거뒀다 하는 조직은 오래전부터 시스템을 구축하고 데이터를 수집·가공·분석하는 부서나 인력을 갖춘 곳이다. 일부 실험적인 AI를 통한 업무 혁신과 산업 디지털 전환 흐름이 일어나고 있다고 하지만 IT업계에서 눈을 돌리면 기초적인 디지털화가 이뤄지지 않은 업종과 조직에 종사하는 사람들이 훨씬 많다. 한 업체가 연간 수백억 원 이상 매출을 올리면서 실무자의 엑셀 수작업으로 경영 현황을 그때그때 파악하고 소통 이력이 수시로 증발하는 카카오톡으로 업무를 추진하는 게 ‘보통’인 업종도 있다. 이런 곳은 AI가 당장 어떤 기적을 보여줄 것인지 기대할 게 아니라 AI를 업무에 도입할 때 불어넣을 내부 데이터 먼저 쌓아야 한다. 어떤 데이터가 필요한지 확인하고 직접 확보하든, 외부와 협력해 사 오든 상당한 투자를 각오하는 게 좋겠다.

관련기사