AI 개발 때 공개데이터 어떻게 활용할까…개인정보위, 안내서 마련

"AI 개발 때 공개데이터 어떻게 활용할까"…개인정보위, 안내서 마련

박진영 기자입력 2024-07-17 14:57

기사공유
폰트크기

개인정보 규율 내 적법한 데이터 처리 방안 제시
'정당한 이익' 한해 공개데이터 활용 가능 명확히

생성형 인공지능(AI) 모델을 개발할 때 활용되는 '인터넷상 공개 데이터'를 안전하게 처리할 수 있는 정부 차원의 기준이 나왔다.

개인정보보호위원회는 17일 관련 기준을 담은 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서'를 공개했다.

공개 데이터는 인터넷에서 누구나 합법적으로 접근할 수 있는 데이터다. 챗GPT 등 생성 AI 개발을 위한 학습데이터 핵심 원료로 쓰인다. 대부분 AI 기업은 커먼크롤(인터넷상 데이터를 자동 수집해 누구나 접근할 수 있는 공개 저장소)·위키백과·블로그·웹사이트 등에 있는 공개 데이터를 웹 스크래핑 등 방식으로 수집해 AI 학습데이터로 활용하고 있다.

그간 공개 데이터에는 주소·고유식별번호·신용카드번호 등 여러 개인정보가 포함될 수 있어 프라이버시 침해 우려가 있었다. 현행 개인정보 보호법에는 이처럼 공개된 개인정보 처리에 적용할 명확한 기준이 없다.

관련기사

이에 개인정보위는 공개 개인정보 수집‧활용의 법적 기준을 명확화하고, AI 개발·서비스 단계에서 어떤 안전조치를 취하는 것이 적정한지에 대한 최소한 기준을 제시하는 안내서를 마련했다. 공개 데이터를 이용하는 기업의 개인정보 침해 문제를 최소화하고 법적 불확실성을 해소해 혁신성장을 돕겠다는 취지다.

우선 보호법 제15조에 따른 '정당한 이익' 조항에 의해 공개된 개인정보를 AI 학습·서비스 개발에 활용할 수 있다는 점을 분명히 했다. 다만 정당한 이익이 적용되려면 △AI 개발 목적 정당성 △공개된 개인정보 처리 필요성 △구체적 이익형량 등 세 가지 요건을 충족해야 한다.

AI 기업이 정당한 이익을 근거로 공개된 개인정보를 처리할 때 고려할 수 있는 기술적‧관리적 안전성 확보 조치와 정보주체 권리보장 방안도 구체화했다.

개인정보위는 이번 안내서로 기업 부담이 커질 수 있다는 우려에 대해 "AI 기업이 모든 안전조치를 의무적으로 시행해야 하는 것은 아니다"라면서 "기업이 AI 유형·용례 등 개별 여건에 따라 AI 성능과 안전성의 조화를 이룰 수 있도록 자율적으로 도입할 수 있다"고 설명했다.

개인정보위는 AI 개발 학습데이터 처리와 관련해 개인정보보호책임자(CPO) 역할도 강조했다. CPO를 구심점으로 하는 'AI 프라이버시 담당조직'을 자율적으로 구성해 안내서에 따른 기준 충족 여부를 평가하도록 권고했다.

안내서는 추후 개인정보 관련 법령 제·개정, AI 기술 발전 추이, 해외 규제 동향 등을 고려해 지속 업데이트될 예정이다.

고학수 개인정보위원장은 "AI 기술 진보가 빠르게 이뤄지고 있지만 AI 개발 핵심 관건인 공개 데이터 학습이 보호법에 비추어 적법하고 안전한지 여부는 공백인 상황"이라고 말했다. 이어 "이번 안내서를 통해 국민이 신뢰하는 AI·데이터 처리 관행을 기업 스스로 만들어 나가고, 이렇게 축적된 모범사례가 안내서에 계속 반영되기를 기대한다"고 말했다.