메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

[2024 뉴테크놀로지 포럼] 하헌석 큐빅 CTO "합성 데이터가 제약 넘어 AI 발전시킬 것"

하현석 큐빅 CTO가 20일 서울 중구 페럼타워에서 메트로미디어 주최로 열린 '2024 뉴테크놀로지 포럼'에 참석해 강연하고 있다. / 손진영기자 son@

 

 

"랩 다이아몬드로 불리는 합성 다이아몬드가 등장한 후 가격 접근성도 변했지만 환경과 윤리적 문제들이 함께 해결됐습니다. AI시대, 합성 데이터는 바로 합성 다이아몬드와 같다고 생각합니다."

 

하헌석 큐빅 CTO가 20일 서울 중구 페럼타워에서 <메트로신문, 메트로경제> 주최 '2024 뉴테크놀로지 포럼-초현실사회로 : AGI가 재편하는 미래 생태계'에 참석해 'AI 혁신을 위한 미래데이터 : 합성데이터 소개' 강연을 진행했다.

 

합성 데이터(Synthetic Data)란 실제 데이터와 유사한 통계적 특성을 가지지만 개인정보 등 민감 정보를 포함하지 않은 가상 데이터를 뜻한다. 개인정보와 저작권 등 법적 제약을 극복할 수 있으면서 동시에 데이터 수집 비용을 절감하고 편향성도 함께 해결할 수 있어 AI 모델 학습을 위한 최적의 방안으로 떠오르고 있다.

 

하 CTO는 "AI는 방대한 데이터 셋 학습이 필수적이지만, 이 데이터를 확보하는 데에는 다양한 제약이 있다"며 "현재 오픈AI를 비롯해 주요 AI 기업들은 다양한 주체들로부터 저작권 위반 혐의로 고소를 당한 상태"라고 설명했다.

 

이어 "이러한 점들을 극복할 수 있는 대안이 바로 유사한 통계적 특성을 가지되 개인정보나 민감 정보를 보함하지 않는 가상 데이터인 합성데이터"라며 "가트너는 2030년까지 합성 데이터가 원본 데이터보다 더 많이 활용될 것이라고 전망하고 있다"고 밝혔다.

 

그러면서도 합성데이터 또한 일부 문제가 있을 수 있다고 지적하기도 했다. 허 CTO에 따르면 원본 데이터를 너무 충실히 모방하면, 합성 데이터만으로도 원본 데이터의 민감 정보가 노출될 가능성이 있다. 이를 해결하기 위해 차등 정보 보호(Differential Privacy) 기술이 도입됐는데, 이는 데이터 학습 시 노이즈를 추가해 원본 데이터의 샘플 정보 유출을 방지하는 방식이다. 구글, 애플 등 글로벌 IT 기업들은 이미 이 기술을 고객 데이터 보호에 활용하고 있다.

 

허 CTO는 "미래의 데이터 산업은 단순히 데이터를 활용하는 데 그치지 않고, 합성 데이터 기술을 중심으로 한 새로운 생태계를 만들어가고 있다"며 "이제는 다이아몬드와 데이터가 합성 기술로 재탄생하며, 우리의 삶과 산업에 혁신을 가져올 준비를 마쳤다"고 마무리 지었다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr