"랩 다이아몬드로 불리는 합성 다이아몬드가 등장한 후 가격 접근성도 변했지만 환경과 윤리적 문제들이 함께 해결됐습니다. AI시대, 합성 데이터는 바로 합성 다이아몬드와 같다고 생각합니다."
하헌석 큐빅 CTO가 20일 서울 중구 페럼타워에서 <메트로신문, 메트로경제> 주최 '2024 뉴테크놀로지 포럼-초현실사회로 : AGI가 재편하는 미래 생태계'에 참석해 'AI 혁신을 위한 미래데이터 : 합성데이터 소개' 강연을 진행했다. 메트로신문,>
합성 데이터(Synthetic Data)란 실제 데이터와 유사한 통계적 특성을 가지지만 개인정보 등 민감 정보를 포함하지 않은 가상 데이터를 뜻한다. 개인정보와 저작권 등 법적 제약을 극복할 수 있으면서 동시에 데이터 수집 비용을 절감하고 편향성도 함께 해결할 수 있어 AI 모델 학습을 위한 최적의 방안으로 떠오르고 있다.
하 CTO는 "AI는 방대한 데이터 셋 학습이 필수적이지만, 이 데이터를 확보하는 데에는 다양한 제약이 있다"며 "현재 오픈AI를 비롯해 주요 AI 기업들은 다양한 주체들로부터 저작권 위반 혐의로 고소를 당한 상태"라고 설명했다.
이어 "이러한 점들을 극복할 수 있는 대안이 바로 유사한 통계적 특성을 가지되 개인정보나 민감 정보를 보함하지 않는 가상 데이터인 합성데이터"라며 "가트너는 2030년까지 합성 데이터가 원본 데이터보다 더 많이 활용될 것이라고 전망하고 있다"고 밝혔다.
그러면서도 합성데이터 또한 일부 문제가 있을 수 있다고 지적하기도 했다. 허 CTO에 따르면 원본 데이터를 너무 충실히 모방하면, 합성 데이터만으로도 원본 데이터의 민감 정보가 노출될 가능성이 있다. 이를 해결하기 위해 차등 정보 보호(Differential Privacy) 기술이 도입됐는데, 이는 데이터 학습 시 노이즈를 추가해 원본 데이터의 샘플 정보 유출을 방지하는 방식이다. 구글, 애플 등 글로벌 IT 기업들은 이미 이 기술을 고객 데이터 보호에 활용하고 있다.
허 CTO는 "미래의 데이터 산업은 단순히 데이터를 활용하는 데 그치지 않고, 합성 데이터 기술을 중심으로 한 새로운 생태계를 만들어가고 있다"며 "이제는 다이아몬드와 데이터가 합성 기술로 재탄생하며, 우리의 삶과 산업에 혁신을 가져올 준비를 마쳤다"고 마무리 지었다.
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성