합성데이터란 특정 목적을 위해 원본데이터의 형식과 구조, 통계적 분포 특성과 패턴을 학습해 생성한 모의(simulated) 또는 가상(artificial) 데이터를 말한다. 컴퓨터 시뮬레이션 또는 알고리즘에 의해 생성된다. 가상의 데이터이기 때문에 원본데이터에 있는 개인 식별정보나 민감정보를 노출하지 않고 데이터를 자유롭게 공유해 활용할 수 있다는 이점이 있다.
이에 데이터의 안전한 활용을 위해 합성데이터를 생성하고 활용하는 사례가 늘고 있다. 다만 그간 현장에서 적용 가능한 기준이나 참고할 만한 선례가 부족했다. 이에 따라 개인정보위는 지난 5월 관련 실증사례를 담은 '합성데이터 생성 참조모델'을 발표한 데 이어, 이번에는 해당 사례를 바탕으로 합성데이터 생성 절차와 관련 법령 준수사항을 수록한 안내서를 발간했다.
안내서는 각계 전문가가 참여한 연구반에서 안을 만들고, 이후 외부 전문가의 추가 의견수렴을 거쳐 완성됐다. 안내서에서는 개인정보 식별 가능성에 실질적으로 대응할 수 있도록 합성데이터 생성·활용 단계를 △사전준비△합성데이터 생성 △안전성·유용성 검증 △심의위원회 평가 △활용과 안전한 관리로 제시했다.
이와 함께 최근 수요가 증가하는 비정형 합성데이터(이미지)에 대해서도 절차와 유의사항들을 안내하고 있으며, 특히 불특정 다수 등 일반대중 공개를 위한 합성데이터는 안전성에 중점을 둬 생성·검증하고 심의위원회 평가 등을 거쳐 익명정보로 활용할 수 있다는 점도 밝혔다.
개인정보위는 이에 앞으로 산업현장, 연구소 등에서는 합성데이터 관련 절차나 서식, 방법론, 법령 준수사항 등을 참고하고자 할 때 안내서를 활용할 수 있다고 설명했다. 정형·비정형 합성데이터별 세부 사례는 지난 5월 발간한 '합성데이터 생성 참조모델'에서 확인할 수 있으며, 참조모델의 합성데이터는 '가명정보 지원 플랫폼'에서 내려받을 수 있다.
양청삼 개인정보위 개인정보정책국장은 "프라이버시 강화 기술로서 합성데이터의 잠재력에도 불구하고, 활용 기준, 방법, 절차 관련 내용이 체계화되어 있지 않아 산업·연구현장에서 느껴왔던 애로사항들이 이번 안내서를 통해 해소되기를 기대한다"고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지