스캐터랩, 사과문 공개…"데이터 관리 신중하지 못했다"

깃허브 오픈소스 통한 대화패턴 노출 인정해 사과
개인정보위·KISA 조사 시작…"성실하게 임하겠다"
사내외 상시 개인정보보호체계구축·재발방지 다짐

인공지능(AI) 챗봇 '이루다' 개발사 스캐터랩이 데이터 관리에 신중하지 못했다며 사과했다. 그간 논란이 된 모든 사항에 대해 사내 조사를 진행하고 외부 전문가 활용을 포함한 상시 개인정보보호체계 구축과 재발방지에 힘쓰겠다고 밝혔다.

스캐터랩은 논란이 된 이루다 챗봇의 AI 학습에 활용된 '연애의 과학' 서비스 이용자의 개인정보를 합법적으로 처리했다고 주장해 왔다. 이에 대한 개인정보보호위원회와 한국인터넷진흥원(KISA) 조사가 시작된 상태다.

스캐터랩 측은 "조사에 성실하게 임하고 있다"며 "이번 사안에 대해 깊은 책임감을 느끼며 모든 이용자 여러분께 진심으로 사과드린다"고 밝혔다. 이어 "AI 산업계 여러 동료기업, 연구자, 파트너들에게 누를 끼치지 않길 바란다"고 덧붙였다.

[사진=스캐터랩 홈페이지]

13일 스캐터랩은 연애의 과학 데이터의 개인정보처리와 관련한 부분을 개인정보위, KISA에서 조사하고 있다며 이같은 사과문을 공개했다. 앞서 회사측은 지난 2016년 출시한 연애의 과학 앱 이용자로부터 카카오톡 대화를 수집해 개인정보 삭제 등 비식별 처리를 한 뒤 작년말 출시한 이루다의 AI 학습용 데이터로 활용했다고 설명했다.

관련기사

그간 개인정보와 관련해 제기된 문제는 세 가지다. 하나는 연애의 과학 앱 이용자가 제출한 카카오톡 대화를 스캐터랩 측이 AI 개발에 사용한 것이 정당했느냐다. 또 하나는 연애의 과학 앱 이용자가 제출한 카카오톡 대화의 상대방의 동의를 구하지 않고 수집하는 것이 적절했느냐다. 나머지 하나는 AI 챗봇 이루다의 표현을 통해 개인정보가 유출됐느냐다.

처리방침 '신규 서비스 개발'로 이용자 정보활용 동의 간주

스캐터랩 측은 '새로운 서비스 개발과 출시'라는 목적을 밝힌 개인정보처리방침에 연애의 과학 이용자들이 동의했기 때문에, 이용자가 제출한 카카오톡 대화를 자사의 새로운 서비스인 이루다 개발에 활용할 수 있다고 판단했다고 밝혔다.

이날 사과문과 함께 공개한 추가 답변을 통해 "연애의 과학 초기 화면에 이용자가 로그인하기 전 '로그인함으로써 이용약관 및 개인정보취급방침에 동의합니다'라고 기재돼 있고 이용자가 이용약관이나 개인정보취급방침을 터치하면 전문을 확인할 수 있다"고 밝혔다.

이어 "이용자가 동의하는 개인정보취급방침에는 수집된 메시지 정보가 신규 서비스 개발 및 마케팅, 광고에 활용될 수 있다는 점도 함께 설명되어 있다"며 "연애의 과학이 개인정보의 수집, 이용에 동의를 받는 방법은, 실제로 국내외 서비스들이 채택하고 있는 동일한 방법으로, 내부적으로 법적으로 문제가 없을 것이라고 판단했다"고 답했다.

회사는 "수집한 데이터는 비식별화 조치를 한 뒤 AI 알고리즘 훈련 등을 위하여 제한적인 용도로만 활용됐다"며 "이 과정에서 이용자분들과 충분히 소통하지 못해 연애의 과학 서비스를 아껴주신 이용자 여러분께 심려를 끼쳐드린 점에 깊이 반성하며 머리숙여 사과드린다"고 덧붙였다.

대화 당사자 중 한 명의 동의로 동의 요건 충족 판단

스캐터랩은 또 대화 참여자 가운데 한 명인 연애의 과학 앱 이용자가 데이터 수집에 동의하고 카카오톡 대화를 제출함으로써 개인정보보호법에 요구되는 개인정보주체의 동의 요건을 충족하는 것으로 인식했다고 설명했다.

회사는 "연애의 과학은 대화의 당사자 중 한 명이 개인정보 수집, 이용에 동의하여 자발적으로 대화 내용을 연애의 과학에 업로드한 것"이라며 "(나머지 대화 참여자의 동의를 받지 않더라도) 내부적으로 문제가 없을 것으로 판단했다"고 밝혔다. 이어 "참고로 대화 내용은 제3자에게 제공하지 않고, 이용자의 동의를 받은 범위 내에서만 사용했다"고 덧붙였다.

회사는 또 연애의 과학 이용자들 가운데 AI 학습에 데이터가 활용되기를 원하지 않는 이들에게 개인정보보호법에 따라 DB 삭제 조치 등을 지원하겠다고 밝혔다.

깃허브서 민감할 수 있는 실제 대화 노출 인정해 사과

AI챗봇 이루다를 통한 개인정보 유출 논란은 이루다에게 특정 키워드로 질문을 했을 때 특정한 인명과 주소, 은행 계좌번호 등을 포함한 답을 내놓는다는 사실이 알려지면서 불거졌다. 스캐터랩은 먼젓번 해명을 통해 이루다의 답변 문장 DB 가운데 일부에서 제거되지 않은 실명 등이 있었던 것으로, 학습 데이터의 개인정보가 유출된 것은 아니라고 답했다.

이후 새로운 개인정보 유출 우려가 제기됐다. 스캐터랩 개발팀이 오픈소스 공유 사이트 '깃허브'에 지난 2019년 공개한 '인공지능 한국어 자연어처리(NLP) 연구 모델'에 내부 테스트용으로 추출한 실제 이용자들의 카카오톡 대화 일부가 포함돼 있었던 것이다.

깃허브에 오픈소스로 공개된 프로젝트의 파일은 누구나 외부에서 열람하고 복사해갈 수 있다. 해당 프로젝트에는 스캐터랩이 샘플로 추출한 1700여개 문장 분량의 카카오톡 대화 100건이 포함돼 있었다. 대화 중 실명과 숫자 정보에 기계적인 비식별 처리를 했으나 걸러지지 않은 정보가 있었다고 회사측은 인정했다. 문맥상 대화를 나누는 사람들의 관계와 생활반경을 추정할 수 있는 정보가 포함된 형태였다.

스캐터랩은 이날 추가 답변에서 자체 조사를 통해 이 문제를 확인하고 이후 깃허브의 오픈소스 저장소를 비공개 처리했다고 밝혔다. 회사측은 "한국어 자연어처리와 관련된 기술 개발 및 공유를 위한 것이었으나 데이터 관리에 더 신중하지 못했다"며 "일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해 진심으로 사과드린다"고 밝혔다.