정부가 범정부 인공지능(AI) 플랫폼을 구성하기 위한 작업에 착수했다(지디넷코리아 2024년 2월 23일자). 각급 기관별로 각기 다른 AI 적용 방안을 만든다면 중복의 우려도 있고 품질 문제도 있을 것이기 때문에 범정부적으로 일원화된 형태로 가야 한다는 것이 정부의 입장이다. 이를 보면 중복 요인 제거를 통한 단일화(통합) 필요성에 대해 정부도 이제는 어느 정도 인식하고 있는 것 같다. 하지만 품질 개선에 있어서 데이터 품질을 염두에 둔 것으로 보이지는 않는다. 최근 차세대 지방세입정보시스템 오류(전자신문 2024년 2월 24일자)가 발생했다. 보도에 의하면 이 시스템은 지자체마다 개별 관리하던 지방세 시스템을 하나로 통합하는 것이 목표였다고 한다. 세금완납증명서가 제때 발급되지 않았고 가상계좌를 통한 납부가 제대로 이뤄지지 않았다는 점을 보면 정보시스템 품질에서 실패한 사례다. 이 시스템도 통합을 추진하기는 했으나 데이터 통합까지는 가지 못했을 것으로 추정된다.
이런 통합 문제를 제대로 풀어나가고자 한다면 데이터 품질 전문가를 정부 부처와 지자체마다 확보하고 있는지에 대해서 자문해봐야 한다. 정보시스템 성공과 범정부 AI 플랫폼 성공을 위해서는 데이터 품질이 무엇보다 중요하기 때문이다. 정부가 AI 플랫폼을 구축하겠다는 이야기는 공공데이터를 AI의 먹이로 사용하겠다는 말과 같다. 그렇다면 AI에 먹일 데이터의 품질에 대해서도 당연히 신경을 싸야 한다. 품질이 조악한 수준인 데이터를 먹이면 어떤 환각 현상과 착시 현상이 벌어질지는 말하지 않아도 잘 알 것이다. 마침 범정부 AI 플랫폼 사업은 정보시스템계획(ISP) 단계라고 하니 서둘러 데이터 품질 관련 분석 및 설계 전문가가 있는지 꼭 체크해봐야 할 것이다. 행정망 마비 사태 이후에도 데이터 품질을 검토해 보겠노라는 정부의 의지는 전혀 보이질 않았다. 이는 역으로 보면 정부가 데이터 품질에 대해 나름 자족하고 있다는 간접적 증거 아닐까. 디지털 정부 평가에서 한국이 세계 1위를 차지했다고 해서 자족해서는 아니 될 이유가 있다(아주경제 2024년 1월 30일자). 더구나 2년 연속 1위라는 사실을 접하는 시민들로서는 정부의 이미지가 행정망 사태와 겹쳐 앞뒤가 전혀 맞지 않는다는 의견이 보편적이다. 행안부는 이런 모순에 대해 스스로 “평가 기준이 다르기 때문”이라고 설명한다(2024년 1월 31일자 조선일보 8면). 그렇다. OECD 같은 국제기구에서는 시스템의 질보다는 정보공개 개방성에 초점을 둔다. 그게 국제기구 평가의 현주소이자 한계다. 주요 평가항목 모두 정부나 지자체가 보유하고 있는 정보에 대해 시민들과 공유할 의지를 평가하는 것 위주인 탓이다. 데이터 공개 항목이 단적인 예다. 개방 의지에 대해서는 한국은 상당히 앞서 있지만 데이터 품질을 보는 학계 시각은 많이 다르다.
학계에서는 데이터 품질에 더 가치를 두며 품질을 구체적으로 수치화할 수 있어야 한다고 본다. 이런 품질 수치 지표에는 여러 가지가 존재하는데 그 대표적인 것으로는 데이터가 얼마나 불필요하게 중복되어 있는지를 나타내는 데이터 중복률이다. 인체에 비유하면 ‘데이터 비만도’와 동일한 맥락에서 이해하면 된다. 낮출수록 품질은 좋아진다. 데이터의 군살을 빼기 위해 필요 불급한 것들은 완전히 제거하는 것이 데이터 비만도를 낮추는 지름길이다. 그래야 시스템의 질과 속도가 개선된다는 것은 학계 정설이다. 그러나 현장에서는 중복을 오용하고 더 나아가서는 남용하는 게 관행처럼 돼 있다. 이러한 불필요 데이터 중복률 수치까지 고려한다면 OECD 평가와는 다른 순위가 나올 것이다. 실제 말단에 깔려 있는 데이터 품질에 집중하지 않다 보니 핵심을 벗어나는 시스템 유지보수에 온갖 신경을 곤두세우는 정부 관행도 문제다. 데이터 전체 유통 경로를 파악하기가 불가능하다 보니 분절된 시스템에 대한 유지보수도 힘들어진다. 데이터가 코드(컴퓨터 프로그램) 속에 중구난방으로 섞여 있어 어느 것이 데이터인지 분간해내기 불가능하다. 따라서 시스템 튜닝을 하는 과정에서 코드를 잘못 건드리면 데이터까지도 건드리게 되는 화를 불러일으키는 불안을 안고 있다. 데이터 전문가에 따르면 행정망 먹통 사태의 가장 유력한 단서로는 첫째, 시스템 발주 컨트롤타워 없이 실·국별로 발주하는 그릇된 관행이 이어져 온 점과 둘째, 데이터 맵 없이 바로 코딩해 버리고 마는 고질적 행태가 지목되고 있다. 이런 가운데에서 공공 데이터 품질 개선 노력 없이 범정부 AI 플랫폼을 구축하거나 시스템 유지보수 관행을 변경해 본들 무슨 소용이 있을까.
정부 디지털 행정 장애 방지대책(조선일보 2024년 1월 31일자)을 봐도 데이터 품질에 대한 언급은 전혀 없이 시스템 유지보수에 초점을 둔 것들 위주다. 그 대책의 요지는 이렇다. 정부의 정보시스템을 관리하는 기관인 국가정보자원관리원 산하에 사이버장애지원단을 신설하여 먹통 사태 등이 또다시 재발했을 때 지원단이 이를 관리하는 태스크포스 역할을 한다. 앞으로 국가정보관리원이 중심이 되어 위험 징후 조기 판단과 시스템 안전성 진단 지원을 하겠다는 것이 골자다. 대책에 따르면 유지보수 체계를 개편하고 소프트웨어 구축에 대기업 참여를 허용하겠다고 한다. 그러나 시스템 유지보수에 초점을 두어서는 데이터 품질이 달라지기 불가능하다. 왜 그런가. 그 발표에 의하면 행정·공공기관이 보유하고 있는 정보시스템이 무려 1만7000여 개로 나타났다. 데이터 품질 관리를 위해서는 시스템 분절 현상이 더 이상 확대되지 않게 하는 데 초점을 두어야 한다. 이를 위해서는 시스템 발주 때부터 국가정보관리원이 국가 데이터 품질을 총 설계·관리하는 주체 역할을 해야 하는데 그게 아니라 유지보수에서 역할을 다하겠다는 것으로는 역부족이다. 정부의 주요 대책 중 다른 하나는 그간 금지돼왔던 대기업 참여를 전격 허용하겠다는 내용도 나온다. 그러나 대기업이 참여한들 달라질 가능성은 별로 없다고 본다. 최근 보건복지부 사회복지행정시스템에서 드러났듯이 대기업이 개발을 주도했음에도 시스템 먹통 사태는 재연됐다. 개발을 주도했던 대기업이 문제 해결을 위해 불철주야 노력해왔으나 6개월이 지난 뒤에도 해결 기미가 보이질 않았다. 그 대기업은 결국 사업 전체 중도 하차를 통보한다는 보도가 뒤따랐다(전자신문 2023년 5월 22일자). 대기업은 국가 정보시스템 사업에 이윤을 보고 들어가지 않는다는 말이 있다. 대기업이 개발을 주도하고 시스템 초기 안정화를 위해 대기업 측에 유지보수를 2~3년간 한시적으로 맡긴다 해도 유지보수는 대기업에는 큰 몫이 되지 않아 결국 결국 중소기업 손으로 유지보수가 넘어갈 수밖에 없는 구조다.
따라서 앞으로는 시스템 개발 시 참여 기업 규모보다는 데이터 품질 기준을 도입하고 데이터와 코드를 절대로 섞지 않고 철저히 분리하는 설계 철학을 준수하도록 강제하는 규정이 무엇보다 시급하다. 그다음으로는 중요도에 따라 정보시스템 등급을 나누는 일보다 더 급한 일은 불필요 데이터 중복률 개선에 초점을 둔 데이터 품질 기준이 국가 시스템 전반에 뿌리내리게 하는 일이다. 유지보수 체계를 개선하겠다는 정부 의지는 인정하지만 데이터 통합이라는 최하단이 허술한 상태에서 유지보수라는 최상단만 강화한다고 해서 데이터 품질이 개선될 수 없기 때문이다. 그러므로 국가 공공 데이터에 대한 진정한 주체 역할을 하는 곳에서는 다음 두 가지가 필수다. 첫째, 실·국별 시스템 분절 발주가 불가능하도록 발주 창구를 단일화해야 한다. 둘째, 분절된 수많은 시스템을 대폭 줄여 가볍게 만들어야 한다. 시스템 통폐합이 문제가 아니라 데이터 통합 과정이 문제의 핵심이라는 뜻이다. 과거 데이터 통합에 성공한 국내 모범 사례들도 여럿 있으니 심층 조사해 봐야 할 것이다. 시스템 통합에는 방법론이 있다. 그러나 시스템 통합 방법론도 데이터 중심적으로 돼 있지 않으면 무늬만 통합이지 데이터는 결국 따로 놀게 된다. 데이터가 중차대한 이 시대에 범정부 AI 플랫폼 설계 과정에 수준 높은 데이터 전문가가 포함돼 있었는지 국민들 앞에서 철저히 검증받는 과정도 필요할 것이다.
문송천 필자 이력
▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지