과학기술정보통신부가 방송통신위원회·소방청과 함께 SK㈜ C&C 판교 데이터센터 화재로 인해 촉발된 카카오톡 '먹통' 사태에 대한 조사 결과를 6일 발표했다. SK㈜ C&C와 카카오에 주요 사고원인에 대한 개선 조치와 향후 계획을 수립해 제출하라는 내용이 골자다.
조사에 따르면 SK㈜ C&C 판교 데이터센터는 배터리 온도 등을 모니터링하는 배터리 모니터링 시스템을 갖추고 있었으나, 화재 발생 직전까지 화재에 대한 이상징후는 관찰되지 않았다.
또, 화재 발생 후 가스 소화 장비가 작동했지만, 가스 소화가 어려운 리튬이온 배터리 화재 특성상 초기 진압에 한계가 있었다. SK㈜ C&C는 2016년 리튬이온 배터리 설치 후 화재 전까지 리튬이온 배터리에 특화된 방화조치도 하지 않았다.
카카오톡, 카카오T 등 주요 서비스에서 최대 127시간 33분간 장애를 일으킨 카카오는 대부분의 서비스가 판교 데이터센터에 집중, 판교 데이터센터 사고 시 카카오 대부분 서비스가 즉각 영향을 받는 구조였다. 특히 서비스 구동 초기에 필요한 카카오인증 등 핵심 기능이 판교에 집중돼 있어 계열사 서비스에서 장애가 일어나는 단초가 됐다.
또, 서비스 기능을 5개의 '레이어(서비스 구역)'로 구분하고 판교 데이터센터(액티브 역할)와 다른 데이터센터 간 동작-대기(액티브 스탠바이) 체계로 시스템을 이중화했으나, 이번 사고에선 스탠바이 시스템이 그 역할을 제대로 하지 못했다.
이는 스탠바이 서버를 액티브 역할로 전환하기 위한 '운영 및 관리도구'가 판교 데이터센터에 이중화돼 있고 다른 데이터센터는 이중화돼 있지 않아 판교 데이터센터의 액티브 서버가 멈추면 장애 복구가 어려운 구조였던 데 따른 문제다.
과기정통부는 SK㈜ C&C에 △데이터센터 화재 예방·탐지 △데이터센터 전력공급 생존성 확보 등의 내용을 담은 행정지도를 내렸다. 카카오에는 △서비스 다중화 △재난대비 훈련 등 조치 △이용자 고지 및 피해 구제 등을 포함해 구체적인 대책을 마련하라고 지시했다.
SK㈜ C&C는 "배터리 모니터링 시스템을 포함해 다양한 화재 감지 및 대응 시스템 보강을 적극 검토하고 있고, 리튬이온 배터리 화재 대응을 위한 별도 장치와 재난 발생 구역의 전력 개별 차단 방안도 준비 중이다"며 "배터리실 전력선을 재배치하는 등 구조적 안정성을 확보했고 대형 화재 상황을 고려한 재난대응 시나리오와 세부 훈련 계획도 수립하고 있다"고 전했다,
카카오는 "7일 이프 카카오 행사를 통해 서비스 장애 원인을 분석하고 인프라 투자 계획 등을 담은 재발 방지 대책을 공개할 예정"이라며 "과기정통부의 시정 요구 사항 중 보강할 부분이 있다면 적극적으로 검토해 반영하겠다"고 밝혔다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지