[미래 먹거리, AI를 살려라] ②데이터 3법 통과해도 규정 모호, 정부 데이터 사업 투자 금액 대비 효율 낮아

AI는 데이터를 학습해 상황을 예측하거나 분석하기 때문에 데이터가 AI의 품질을 결정짓게 된다. 사진은 AI 이미지./게티이미지뱅크

인공지능(AI)은 가공된 데이터를 학습해 AI가 상황을 예측하거나 분석하기 때문에, AI가 자동차라면 자동차를 작동시키는 원유(原油)가 바로 데이터라 불릴 정도로 큰 중요성을 갖는다.

하지만 우리나라의 AI 기술력이 최근 세계 8위로 평가될 정도로 경쟁국들 대비 낮은데, 세계 최강자들과 비교해 AI에 학습시키는 데이터의 양이 현저히 적은 것이 가장 큰 원인으로 꼽힌다.

◆국내 AI 기업들 데이터 극히 부족, 미국 AI 강자 따라잡을 수 없어

미국 IT 공룡기업인 구글·아마존·페이스북·MS(마이크로소프트) 등이 글로벌 시장 강자로 꼽히는 것도 이 기업들이 보유하고 있는 엄청난 데이터의 양에 기인한다.

최홍섭 마인즈랩 대표(기술 부문)는 "음성인식 분야만 해도 구글은 몇 억 시간씩 AI를 학습시키는 것에 반해, 우리나라는 정부에서 개방한 데이터 등을 활용해 최대 몇 천 시간 학습시키기 때문에 구글 AI의 성능을 따라 잡을 수 없다"고 지적한다.

또 AI의 성능 고도화를 위해서는 계속 새로운 데이터를 AI에 학습시켜야 하기 때문에 데이터의 중요성은 더욱 커지고 있다.

국내에서 그동안 AI 학습용 데이터를 구하기 어려웠던 가장 큰 이유는 개인정보보호법, 신용정보법, 정보통신망법 등 데이터 3법 규제가 큰 걸림돌이 됐기 때문이다. 이에 따라 이를 해결하기 위해 데이터 3법 개정안이 올해 초 국회에서 통과돼 이달 발효됐다. 데이터 3법 개정의 주요 내용으로는 가명정보를 통한 개인정보 활용성 증대, 개인정보 규제 일원화, 마이데이터를 꼽을 수 있다.

◆데이터 3법 시행에도 가명정보 등 개념 불확실, 기업들 "데이터 제대로 활용 어렵다"

하지만 AI 업계에서는 아직도 데이터 3법에 모호한 규정이 많아 데이터 활용이 매우 조심스럽고 아직 변화를 크게 체감하지 못한다는 의견이 지배적이다.

AI 기업에서 근무하는 한 변호사는 "개정 데이터 3법에서 영상·음성·비디오 데이터를 개인을 알아볼 수 없을 정도로 가명처리를 해야 하는 데 난점이 있다"며 "사람의 얼굴을 못 알아보게 블러링(흐리게 함) 처리를 하면 과연 가명화됐다고 볼 수 있는 지, 강호동이라면 블러링이 되도 뒷모습만 봐도 강호동인 지 식별할 수 있는데 어디까지가 가명 정보인 지 불확실하다"는 문제를 지적했다.

또 한 데이터 기업 대표는 "가명화된 데이터를 AI에 사용하도록 했는데, 블러링 처리를 할 때 조금만 해도 되는 건지, 심하게 하면 데이터로서의 가치가 떨어지는 문제가 있는데 얼마만큼 해야 가명정보인 지 모호하다"며 "주민등록 등본을 스캔해 이름만 바꾸면 가명정보라고 할 수 있는 지 등 문제와 사진을 블러처리 해도 저작권 문제는 여전이 발생한다는 점도 있다"고 말했다. 그는 결국 인터넷서 떠도는 사진을 임의로 사용하는 것은 문제가 될 수 밖에 없어, 데이터를 자체 제작하거나 정부의 데이터를 활용해야 한다고 설명했다.

◆AI 데이터 제작비용 스타트업 감당할 수 없어, 정부의 AI 데이터 구축 사업 활용가치 크지 않아

데이터 제작에 막대한 비용이 지출된다는 것도 AI 기업들의 어려움을 가중시키고 있다. 데이터 제작 비용은 영상 한 장당 몇 십원부터 몇 만원까지 편차가 큰 데, 예를 들어 도로 사거리에서 보행자들을 관찰하는 CCTV 영상이 필요하다고 하면 엄청난 비용이 소요된다고 한 관계자는 설명했다. 또 AI 학습을 위해 사진 300만장이 필요하고, 장당 2만원 주고 찍는다면 무려 600억원의 비용이 소요되는 것.

국내 대다수 AI 전문업체들이 2016년 알파고 대국 이후 생겨난 스타트업들임을 감안할 때 이 같은 데이터 비용은 당연히 감당하지 못할 수준이다.

이 같은 어려움을 고려해 정부는 AI 데이터를 구축해 개방하는 데 수천억원의 투자를 단행하고 있다. 정부가 최근 발표한 '디지털 뉴딜 사업'의 핵심은 '데이터 댐'인 데, 올해는 댐 안에 담을 데이터 확보를 우선으로 사업을 진행해 AI 학습용 데이터 구축 사업에 3473억9000만원과 공공데이터 개방 사업에 1160억7000만원을 배정했고, 올해 150종의 AI 데이터를 구축하기로 했다.

AI 업계에서는 이 같은 정부의 데이터 구축 계획에 대해서는 환영하면서도, 투자 금액 대비 효과는 높지 않은 것으로 평가하고 있다.

한 AI 기업 대표는 "모든 데이터는 인공지능이 풀고자 하는 산업계 문제가 핵심이 되어야 하고 사업 현장의 목소리가 모여 먼저 문제가 식별한 후 데이터를 모아야 한다"며 "정부의 데이터 사업은 데이터를 잔뜩 모아놓으면 AI 기업에 도움이 될 것이라는 생각으로 문제 식별 전 선제적으로 진행하는데, 데이터를 위해 엄청나게 많은 비용을 투자함에도 막 모아놓은 데이터여서 활용가치가 떨어진다"는 문제를 지적했다. 정부의 데이터는 AI를 사전에 학습시키는 용도 정도로만 활용된다는 것.

한 AI 업계 관계자도 "AI 기업 중 통신 이용자들의 소비 패턴이 필요한 곳이 많더라도 이 같은 데이터는 공개되지 않아 기업 입장에서는 '알맹이가 빠진 데이터'라는 느낌을 받는다"며 "유용한 데이터가 많지 않고 사용 제한이 있는 데이터가 많다 보니 널리 활용하지 못하고 있다"고 설명했다.