생성 AI 중심축은 초거대언어모델(LLM)이고, LLM 뼈대는 수많은 종류의 데이터다. 오픈AI·구글·네이버 등 LLM 업체들이 양질의 데이터 수집에 골몰하는 이유다. 그러나 각종 콘텐츠 등 데이터의 원저작권을 가지고 있는 창작자들도 본격적으로 목소리를 내기 시작하면서 콘텐츠 공급자와 LLM 개발사 간 갈등이 점차 수면 위로 떠오르는 모양새다.
생성 AI 데이터 수집 놓고 곳곳서 갈등 점화
현재 저작권 갈등의 최전선은 언론계다. 한국신문협회는 지난달 28일 네이버의 LLM인 '하이퍼클로바X'가 언론사 동의 없이 뉴스 콘텐츠를 학습에 활용한 것은 부당하다며 공정거래위원회에 네이버 뉴스 제휴 약관 개선을 요구했다. 네이버 뉴스 제휴 약관에는 '서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 직접·공동으로 또는 제3자에게 위탁하는 방식으로 정보를 이용할 수 있다'고 명시돼 있다. 이를 근거로 네이버는 하이퍼클로바X에 네이버 뉴스에 공급되는 뉴스 콘텐츠를 학습하고 있는데, 협회는 이 약관만으로 네이버가 AI 학습을 위해 뉴스 데이터를 사전 동의 없이 이용할 수는 없다고 보고 있다.
언론사들 기사는 LLM 학습을 위한 양질의 데이터로 활용될 수 있다. 검증된 사실 위주인 데다 외부에 공개된 자료이고, 문장·표현 등도 정제됐기 때문이다. 그런 만큼 네이버도 언어모델 구축 과정에서 뉴스 기사를 적극적으로 활용해 왔지만 아직 언론계에서 주장하는 뉴스 저작권과 관련해서는 입장을 내놓지 못하고 있다. 최수연 네이버 대표도 저작권에 대한 대가 지급과 관련해 명확한 답변을 하지 않았다.
웹툰·음악·소설 등의 분야에서도 생성 AI로 인한 저작권 문제는 더욱 거세질 전망이다. 생성 AI를 토대로 이미지·동영상 등을 만들어 주는 프로그램 활용도가 높아지면서다. 한국웹툰작가협회와 한국만화가협회는 실제로 지난해 11월 낸 입장문에서 현재 국회에서 논의 중인 '텍스트 데이터 마이닝(TDM)' 면책 규정이 도입되면 웹툰이 AI에 의해 무단으로 학습해 보상 없이 상업적 AI에 이용될 수 있다며 우려를 나타냈다. TDM이란 AI가 대량의 데이터를 분석해 유의미한 정보를 추출하는 과정을 일컫는데, AI의 데이터 학습도 이에 해당한다. 즉 AI가 쉽게 데이터를 학습할 수 있도록 길을 터 주는 셈이다.
해외에서는 이미 분쟁이 시작됐다. 지난해 9월 '왕좌의 게임' 원작자 조지 R. R. 마틴과 존 그리샴 등 유명 작가들이 오픈AI를 상대로 저작권 침해를 주장하는 집단 소송을 제기한 것이 대표적이다. 자신들 저서를 오픈AI와 MS가 무단으로 수집해 챗GPT 등의 서비스에 활용했다는 것이다. 6월에는 미국작가조합(WGA) 소속 작가들이 "AI는 문학(대본 창작)에 사용될 수 없고, 작가들의 작업물은 AI 학습 훈련에 쓰이면 안 된다"며 대대적인 파업을 벌이기도 했다.
이렇듯 저작권 문제가 도마에 오르고 작가들이 우려를 나타내자 AI를 활용하는 기업들도 신중한 모습이다. 네이버웹툰은 애초 작가들의 작업을 도우려는 차원에서 AI 도입에 적극적이었지만, AI로 그린 그림에 대한 저작권 문제를 작가는 물론 독자들도 제기하면서 결국 방침을 바꿨다. 한 작가의 그림만 중점적으로 학습한 작가 맞춤형 AI 툴을 통해 저작권 문제에서 벗어나고자 한 것이다. 최근에는 오픈AI와 애플이 미국 언론사·출판사 등과 콘텐츠 이용 협상을 진행하고 있다는 소식이 전해졌다. 협상이 타결된다면 이들은 저작권 문제를 해결할 수 있지만, 대신 거액의 콘텐츠 이용 대가를 지불해야 한다.
콘텐츠업계를 중심으로 전반적으로 생성 AI 사용 빈도가 늘고 있지만 아직 국내에서는 생성 AI 도입을 유보하는 업체가 많은 것도 이 같은 이유로 해석된다. 한국콘텐츠진흥원이 최근 발간한 '2023년 상반기 콘텐츠 산업 동향 분석' 보고서를 보면 생성 AI 미도입 기업들은 도입에 장애가 되는 주요 외부 요인으로 △관련 법령 미비 △데이터 유통에 대한 엄격한 규제 △양질의 개인 데이터에 대한 접근 제한 등 데이터와 저작권 관련 문제들을 꼽았다.
생성 AI 저작권 가이드라인 나왔지만 쟁점은 여전
이처럼 데이터 수집과 관련해 콘텐츠 공급자와 LLM 개발사 간 신경전이 점차 치열해지고 있는 가운데 구체적인 법이나 지침(가이드라인)과 관련한 요구는 꾸준히 있었다. 물론 자칫 이러한 논의가 AI에 대한 규제로 이어질 수 있다는 우려도 나오지만, 콘텐츠 공급자는 물론 LLM 개발사 등 AI를 활용하는 업체들도 정부 차원에서 최소한의 방향성에 대한 가이드라인을 마련하는 것이 필요하다는 주장에 공감한다. 네이버웹툰과 카카오엔터테인먼트 관계자들이 지난해 11월 문화체육관광부 주최로 진행된 만화·웹툰 산업 간담회에서 AI 저작권 쟁점에 대한 가이드라인 마련을 정부에 요청한 이유다.
문체부가 지난달 발표한 '생성형 AI 저작권 안내서'는 정부 차원에서 처음으로 나온 AI 저작권에 대한 가이드라인이다. 핵심 내용을 추리면 △인간의 창작적 개입 없는 AI 산출물에 대한 저작권 등록 불가 △AI 사업자가 적절한 보상 등으로 저작권자에 적법한 이용 권한 확보 △저작권자가 자신의 저작물이 AI 학습에 이용되기를 원하지 않을 경우 반대 의사 표명 혹은 방지를 위한 기술적 조치를 취할 필요가 있다는 것 등이다. 특히 블로그·홈페이지 등을 통해 공개된 저작물이라는 사실만으로 저작물을 저작권자 허락 없이 이용할 수 없다는 것이 핵심이다.
대신 업계에서는 법적으로 TDM을 허용해야 한다는 점, 공정이용(저작권자 허락 없이 저작물을 이용할 수 있는 특수한 경우)의 전향적 해석이 필요하다는 점 등을 강조한다. 즉 저작권자 허락을 일일이 구하지 않더라도 데이터 수집이 가능하게 해야 한다는 것이다. 이런 목소리는 정보기술(IT)업계를 중심으로 제기되는 'AI에 대한 정부 규제는 시기상조'라는 주장과도 맞닿는다. 그러나 이는 콘텐츠 공급자들의 이해관계와 정반대라는 점에서 논란이 예상된다. 가이드라인에서 이와 관련한 세세한 부분까지 명확한 방향성을 규정하지는 않은 만큼 앞으로 관련 논의는 지속될 전망이다.
전문가들은 AI 발전 과정에서 데이터 수집이 불가피하다는 점은 감안하면서도 이 과정에서 제작자에게 대가를 지급할 수 있는 방안에 대한 사회적 논의가 필요하다고 강조한다. 최경진 한국인공지능법학회장(가천대 법학과 교수)은 "TDM 규정이 정립된다면 데이터 학습에 대해 허용해야 하겠지만, 데이터를 자유롭게 학습하는 것과 추후 데이터 이용에 대해 보상하는 것은 다른 문제"라며 "새로운 보상 체계에 대해서 논의해야 할 시기"라고 말했다. 그러면서 "저작권자들도 AI 시대에 맞는 새로운 저작권 보상 구조나 저작권에 따른 수익 구조를 받아들여야 할 때"라며 "그런 만큼 이와 관련해 다양한 이해관계자가 허심탄회하게 논의할 필요가 있다"고 강조했다.
생성 AI 저작권 침해 분쟁 다변화할 듯···대책 마련 시급
생성 AI 활용처가 넓어지고 시장이 커지면서 앞으로 이로 인한 저작권 분쟁은 다양한 분야에서 더욱 확대될 것으로 보인다. 대표적으로 게임 분야가 거론된다. 게임업계도 점차 게임 개발 과정에서 AI 활용 빈도를 높이고 있는데, 게임에 들어가는 다양한 애셋(게임 제작에 필요한 각종 요소)을 구축하는 과정에서 불특정 다수의 창작물을 학습할 수 있고, 이 과정에서 의도치 않은 저작권 침해 사례가 발생할 수 있다는 시각이다.
이처럼 저작권 분쟁이 여러 분야에서 본격화할 것으로 보이는 가운데 전문가들은 이를 예방하기 위한 대책 마련이 필요하다고 강조한다. 강지현 리율 법률사무소 대표변호사는 "AI 개발 과정에서 학습한 데이터가 매우 많은데 정확히 어떤 데이터를 학습했는지, 원저작자가 누구인지 개발자들조차 모호한 때가 있다"며 "만일 저작권 분쟁이 발생하면 복잡한 문제가 생긴다"고 지적했다. 이어 "데이터를 규격화해서 원저작권자가 누구인지, 언제 만들어진 것인지 등을 명확히 해 데이터 이력 관리가 될 수 있도록 한다면 저작권자와 AI 개발사 간 분쟁에 대비할 수 있을 것"이라고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지