[Tech in trend] 생성 AI 저작권 분쟁 본격화하나…저작권자·AI 개발사 모두 '촉각'

초거대 언어모델 구축 과정서 대규모 양질의 데이터 필요
데이터 수집 두고 저작권 문제 제기…해외는 소송전 돌입
국내 언론·콘텐츠업계 중심으로 신경전…분쟁 본격화 조짐
생성AI 저작권 가이드라인 나왔지만 논의할 사항 '산적'

사진게티이미지뱅크 — 올해 생성 AI로 말미암은 저작권 분쟁이 더욱 늘어날 것으로 보인다. [사진=게티이미지뱅크]

생성 인공지능(AI) 시장이 올해 본격적으로 성장할 것으로 보이는 가운데 AI 저작권 관련 문제도 함께 도마에 오를 것으로 보인다. 지난해가 생성 AI 기술 발전이 빠르게 지속되는 한 해였다면 올 한 해는 다양한 비즈니스에 생성 AI가 접목돼 시장 성장을 이끌 것이라는 관측이 지배적이다.

생성 AI 중심축은 초거대언어모델(LLM)이고, LLM 뼈대는 수많은 종류의 데이터다. 오픈AI·구글·네이버 등 LLM 업체들이 양질의 데이터 수집에 골몰하는 이유다. 그러나 각종 콘텐츠 등 데이터의 원저작권을 가지고 있는 창작자들도 본격적으로 목소리를 내기 시작하면서 콘텐츠 공급자와 LLM 개발사 간 갈등이 점차 수면 위로 떠오르는 모양새다.

생성 AI 데이터 수집 놓고 곳곳서 갈등 점화

현재 저작권 갈등의 최전선은 언론계다. 한국신문협회는 지난달 28일 네이버의 LLM인 '하이퍼클로바X'가 언론사 동의 없이 뉴스 콘텐츠를 학습에 활용한 것은 부당하다며 공정거래위원회에 네이버 뉴스 제휴 약관 개선을 요구했다. 네이버 뉴스 제휴 약관에는 '서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 직접·공동으로 또는 제3자에게 위탁하는 방식으로 정보를 이용할 수 있다'고 명시돼 있다. 이를 근거로 네이버는 하이퍼클로바X에 네이버 뉴스에 공급되는 뉴스 콘텐츠를 학습하고 있는데, 협회는 이 약관만으로 네이버가 AI 학습을 위해 뉴스 데이터를 사전 동의 없이 이용할 수는 없다고 보고 있다.

언론사들 기사는 LLM 학습을 위한 양질의 데이터로 활용될 수 있다. 검증된 사실 위주인 데다 외부에 공개된 자료이고, 문장·표현 등도 정제됐기 때문이다. 그런 만큼 네이버도 언어모델 구축 과정에서 뉴스 기사를 적극적으로 활용해 왔지만 아직 언론계에서 주장하는 뉴스 저작권과 관련해서는 입장을 내놓지 못하고 있다. 최수연 네이버 대표도 저작권에 대한 대가 지급과 관련해 명확한 답변을 하지 않았다.

사진네이버 — 최수연 네이버 대표가 지난해 8월 자체 초거대 AI '하이퍼클로바X'를 소개하고 있다. [사진=네이버]

해외에서도 언론사와 AI 개발사 간 갈등은 예외가 아니다. 미국 뉴욕타임스는 오픈AI와 마이크로소프트(MS)를 상대로 소송을 제기했다. 뉴욕타임스 기사들을 챗GPT 데이터 학습에 무단으로 활용했다는 이유다. 애초 뉴욕타임스는 두 회사와 협상을 했지만 합의가 도출되지 않으면서 소송을 택했다. 자체적으로 생산한 기사에 대한 정당한 대가를 요구하는 언론사들과 데이터 학습 과정에서 일일이 이용 대가를 지불하는 것은 시기상조라는 AI업계 간 대립각이 점차 명확해지고 있는 흐름이다.

웹툰·음악·소설 등의 분야에서도 생성 AI로 인한 저작권 문제는 더욱 거세질 전망이다. 생성 AI를 토대로 이미지·동영상 등을 만들어 주는 프로그램 활용도가 높아지면서다. 한국웹툰작가협회와 한국만화가협회는 실제로 지난해 11월 낸 입장문에서 현재 국회에서 논의 중인 '텍스트 데이터 마이닝(TDM)' 면책 규정이 도입되면 웹툰이 AI에 의해 무단으로 학습해 보상 없이 상업적 AI에 이용될 수 있다며 우려를 나타냈다. TDM이란 AI가 대량의 데이터를 분석해 유의미한 정보를 추출하는 과정을 일컫는데, AI의 데이터 학습도 이에 해당한다. 즉 AI가 쉽게 데이터를 학습할 수 있도록 길을 터 주는 셈이다.

해외에서는 이미 분쟁이 시작됐다. 지난해 9월 '왕좌의 게임' 원작자 조지 R. R. 마틴과 존 그리샴 등 유명 작가들이 오픈AI를 상대로 저작권 침해를 주장하는 집단 소송을 제기한 것이 대표적이다. 자신들 저서를 오픈AI와 MS가 무단으로 수집해 챗GPT 등의 서비스에 활용했다는 것이다. 6월에는 미국작가조합(WGA) 소속 작가들이 "AI는 문학(대본 창작)에 사용될 수 없고, 작가들의 작업물은 AI 학습 훈련에 쓰이면 안 된다"며 대대적인 파업을 벌이기도 했다.

이렇듯 저작권 문제가 도마에 오르고 작가들이 우려를 나타내자 AI를 활용하는 기업들도 신중한 모습이다. 네이버웹툰은 애초 작가들의 작업을 도우려는 차원에서 AI 도입에 적극적이었지만, AI로 그린 그림에 대한 저작권 문제를 작가는 물론 독자들도 제기하면서 결국 방침을 바꿨다. 한 작가의 그림만 중점적으로 학습한 작가 맞춤형 AI 툴을 통해 저작권 문제에서 벗어나고자 한 것이다. 최근에는 오픈AI와 애플이 미국 언론사·출판사 등과 콘텐츠 이용 협상을 진행하고 있다는 소식이 전해졌다. 협상이 타결된다면 이들은 저작권 문제를 해결할 수 있지만, 대신 거액의 콘텐츠 이용 대가를 지불해야 한다.

콘텐츠업계를 중심으로 전반적으로 생성 AI 사용 빈도가 늘고 있지만 아직 국내에서는 생성 AI 도입을 유보하는 업체가 많은 것도 이 같은 이유로 해석된다. 한국콘텐츠진흥원이 최근 발간한 '2023년 상반기 콘텐츠 산업 동향 분석' 보고서를 보면 생성 AI 미도입 기업들은 도입에 장애가 되는 주요 외부 요인으로 △관련 법령 미비 △데이터 유통에 대한 엄격한 규제 △양질의 개인 데이터에 대한 접근 제한 등 데이터와 저작권 관련 문제들을 꼽았다.

생성 AI 저작권 가이드라인 나왔지만 쟁점은 여전

이처럼 데이터 수집과 관련해 콘텐츠 공급자와 LLM 개발사 간 신경전이 점차 치열해지고 있는 가운데 구체적인 법이나 지침(가이드라인)과 관련한 요구는 꾸준히 있었다. 물론 자칫 이러한 논의가 AI에 대한 규제로 이어질 수 있다는 우려도 나오지만, 콘텐츠 공급자는 물론 LLM 개발사 등 AI를 활용하는 업체들도 정부 차원에서 최소한의 방향성에 대한 가이드라인을 마련하는 것이 필요하다는 주장에 공감한다. 네이버웹툰과 카카오엔터테인먼트 관계자들이 지난해 11월 문화체육관광부 주최로 진행된 만화·웹툰 산업 간담회에서 AI 저작권 쟁점에 대한 가이드라인 마련을 정부에 요청한 이유다.

문체부가 지난달 발표한 '생성형 AI 저작권 안내서'는 정부 차원에서 처음으로 나온 AI 저작권에 대한 가이드라인이다. 핵심 내용을 추리면 △인간의 창작적 개입 없는 AI 산출물에 대한 저작권 등록 불가 △AI 사업자가 적절한 보상 등으로 저작권자에 적법한 이용 권한 확보 △저작권자가 자신의 저작물이 AI 학습에 이용되기를 원하지 않을 경우 반대 의사 표명 혹은 방지를 위한 기술적 조치를 취할 필요가 있다는 것 등이다. 특히 블로그·홈페이지 등을 통해 공개된 저작물이라는 사실만으로 저작물을 저작권자 허락 없이 이용할 수 없다는 것이 핵심이다.

문체부 저작권 강국 실현 4대 전략 발표
서울연합뉴스 이재희 기자 유인촌 문화체육관광부 장관가운데이 27일 오전 서울 서대문구 모두예술극장에서 열린 저작권 강국 실현 4대 전략 브리핑에서 인사말을 하고 있다 20231227
scapeynacokr2023-12-27 111256
저작권자 ⓒ 1980-2023 ㈜연합뉴스 무단 전재 재배포 금지저작권자 ⓒ 1980-2023 ㈜연합뉴스 무단 전재 재배포 금지 — 유인촌 문화체육관광부 장관(가운데)이 지난달 27일 오전 서울 서대문구 모두예술극장에서 열린 '저작권 강국 실현 4대 전략' 브리핑에서 인사말을 하고 있다. [사진=연합뉴스]

문체부는 AI 기술 상용화로 인한 시장 혼란을 최소화하기 위한 조치라고 설명한다. 다만 AI업계에서는 우려하는 목소리가 나온다. 자칫 방대한 데이터의 이용 목적·기간·대가 등을 건별로 협의·계약하는 의미로 풀이돼 데이터 수집 과정이 매우 번거로워질 수 있어서다. 한국소프트웨어산업협회 산하 초거대AI추진협의회가 안내서에 있는 'AI 학습을 위한 저작물 이용 시 사전에 저작권자에게서 적절한 보상 등의 방법으로 적법한 권한을 확보할 것을 권고한다'는 문구의 삭제를 요구한 이유다.

대신 업계에서는 법적으로 TDM을 허용해야 한다는 점, 공정이용(저작권자 허락 없이 저작물을 이용할 수 있는 특수한 경우)의 전향적 해석이 필요하다는 점 등을 강조한다. 즉 저작권자 허락을 일일이 구하지 않더라도 데이터 수집이 가능하게 해야 한다는 것이다. 이런 목소리는 정보기술(IT)업계를 중심으로 제기되는 'AI에 대한 정부 규제는 시기상조'라는 주장과도 맞닿는다. 그러나 이는 콘텐츠 공급자들의 이해관계와 정반대라는 점에서 논란이 예상된다. 가이드라인에서 이와 관련한 세세한 부분까지 명확한 방향성을 규정하지는 않은 만큼 앞으로 관련 논의는 지속될 전망이다.

전문가들은 AI 발전 과정에서 데이터 수집이 불가피하다는 점은 감안하면서도 이 과정에서 제작자에게 대가를 지급할 수 있는 방안에 대한 사회적 논의가 필요하다고 강조한다. 최경진 한국인공지능법학회장(가천대 법학과 교수)은 "TDM 규정이 정립된다면 데이터 학습에 대해 허용해야 하겠지만, 데이터를 자유롭게 학습하는 것과 추후 데이터 이용에 대해 보상하는 것은 다른 문제"라며 "새로운 보상 체계에 대해서 논의해야 할 시기"라고 말했다. 그러면서 "저작권자들도 AI 시대에 맞는 새로운 저작권 보상 구조나 저작권에 따른 수익 구조를 받아들여야 할 때"라며 "그런 만큼 이와 관련해 다양한 이해관계자가 허심탄회하게 논의할 필요가 있다"고 강조했다.

생성 AI 저작권 침해 분쟁 다변화할 듯···대책 마련 시급

생성 AI 활용처가 넓어지고 시장이 커지면서 앞으로 이로 인한 저작권 분쟁은 다양한 분야에서 더욱 확대될 것으로 보인다. 대표적으로 게임 분야가 거론된다. 게임업계도 점차 게임 개발 과정에서 AI 활용 빈도를 높이고 있는데, 게임에 들어가는 다양한 애셋(게임 제작에 필요한 각종 요소)을 구축하는 과정에서 불특정 다수의 창작물을 학습할 수 있고, 이 과정에서 의도치 않은 저작권 침해 사례가 발생할 수 있다는 시각이다.

사진오픈AI — 오픈AI의 이미지 생성 프로그램 '달리3'로 생성한 이미지. [사진=오픈AI]

아직 게임사에서 생성 AI로 인해 분쟁이 발생한 사례는 없지만 업계에서 서로 다른 게임 간 유사성 문제로 저작권법과 부정경쟁방지법 침해 분쟁이 이어진 만큼 앞으로 생성 AI로 이런 흐름이 더욱 촉발될 수 있다는 것이다. 게임에는 이미지·영상·음악·텍스트 등 다양한 데이터가 활용돼 그만큼 기존 저작권자의 저작물을 침해할 요소가 많다는 점도 주목할 만한 부분이다.

이처럼 저작권 분쟁이 여러 분야에서 본격화할 것으로 보이는 가운데 전문가들은 이를 예방하기 위한 대책 마련이 필요하다고 강조한다. 강지현 리율 법률사무소 대표변호사는 "AI 개발 과정에서 학습한 데이터가 매우 많은데 정확히 어떤 데이터를 학습했는지, 원저작자가 누구인지 개발자들조차 모호한 때가 있다"며 "만일 저작권 분쟁이 발생하면 복잡한 문제가 생긴다"고 지적했다. 이어 "데이터를 규격화해서 원저작권자가 누구인지, 언제 만들어진 것인지 등을 명확히 해 데이터 이력 관리가 될 수 있도록 한다면 저작권자와 AI 개발사 간 분쟁에 대비할 수 있을 것"이라고 말했다.