메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

[AI의 은밀한 비밀](上) 잇따르는 AI 저작권 소송…뭘 보고 배웠나

美 조 바이든 대통령 'AI 안전' 행정명령 서명
저작권청에 180일 내 학습 권고안 마련 지시
CAA 등 "비욘세 노래 등 무단 학습" 기업 소송
학습 데이터 셋, 공개 정보는 저작권 침해 無…기밀성·방대함으로 확인 불가능한 데다 무단 학습 정황도

[편집자 주] 쳇 GPT(chatGPT) 공개 1년, 인공지능(AI)에 세계가 뒤집혔다. 정해진 답을 어색한 문장으로 말하던 AI는 화면 너머 사람이라도 있듯 말하고, 문외한도 단어 몇 개로 작품을 만들 수 있게 됐다. 발전에 빛만 있으랴, AI에 화난 사람들이 있다. 눈부신 AI 발전의 그늘, AI가 말하고 만들어내는 모든 것들로부터 '나의 작품'을 발견한 사람들이다. AI가 맞닥뜨리고 세계 어느 곳도 갈피를 못 잡은 '저작권'. AI와 저작권을 둘러싼 현황을 살펴본다.

 

스태빌리티AI 화면. 키워드 또는 문장을 토대로 이미지를 제작한다. /스태빌리티

 

 

인공지능(AI)의 대중화와 함께 저작권에 관한 논의가 확산되며 사회적 관심이 집중되고 있다. 대규모 언어 모델(LLM)이 저작권 보유된 자료를 학습할 때, AI가 만들어내는 결과물이 기존 저작물의 저작권을 침해할 수 있다는 것. 최근에는 소스코드 저장소 '깃허브'를 비롯해 저작권 침해를 주장하는 소송까지 이어지고 있다.

 

지난달 30일(현지시간) 조 바이든 미국 대통령이 AI 안전성 평가를 의무화 하는 행정명령에 사인한 것으로 4일 전해졌다. AI 훈련부터 개발, 생산, 서비스까지 전 분야에 대한 규제를 골자로 한 행정명령 '안전하고 신뢰할 수 있는 AI 개발 및 사용' 중 특히 눈길을 끄는 대목은 학습 데이터셋에 대한 것이다. 이번 행정명령은 미국저작권청장에 180일 이내 AI 학습 관련 저작권 지침을 마련하도록 지시했다. AI 학습에 사용되는 창작물과 뉴스에 대한 저작권 보호 권고안을 마련하도록 한 것이다.

 

지난해 쳇GPT(chatGPT) 이후 AI의 발전상황이 공유되고 다양한 문제가 제기 됐다. 생성형 AI를 활용한 딥페이크 제작 및 가짜 정보 확산이 가장 먼저 논란을 일으킨 후 AI 업계 밖까지 들썩이게 한 문제는 저작권 문제다. AI 고도화 과정에서 이용되는 학습 데이터셋(Training Dataset)이 다양한 주체의 저작권을 침해했다는 주장이 제기됐고 소송이 줄지어 이어졌다.

 

지난달 앤스로픽의 챗봇 클로드는 유니버셜뮤직, 콩코드 퍼블리싱 등 글로벌 음반사로부터 저작권 침해 소송을 당했다. 글로벌 음반사들은 앤스로픽이 비욘세, 롤링스톤즈 등 유명 가수 노래 500여 곡 가사를 학습에 무단 이용하고 이를 토대로 이용자의 요구에 클로드가 기존 노래 가사를 제공한다고 주장했다. 깃허브의 한 이용자 또한 MS, 오픈AI(OpenAI) 등에 "오픈AI의 코덱스, 깃허브의 코파일럿이 오픈소스의 코드를 훔쳤다"며 소송에 나섰다. AI로 제안되는 코드가 공개된 깃허브의 동일한 코드 문자열로 구성되지만 오픈소스 라이선스 속성을 갖지 못한다는 주장이다.

 

지난달 31일(현지시간) 사상 첫 AI 학습에 관한 저작권 판결이 미국에서 나왔다. 캘리포니아 북부지역법원은 만화·일러스트레이터 3인(사라 앤더슨·캘리 맥커넌·칼라 오티즈)가 스태빌리티AI와 미드저니를 상대로 제기한 저작권법 위반 소송을 기각했다. 작가 3인은 자신들의 저작물 중 일부가 이미지 생성형 AI 데이터셋에 들어갔다고 주장하며 각 프로그램이 원본 작품과 유사한 결과물을 만든다고 주장했다.

 

법원은 ▲작가들이 제시한 작품 중 대다수가 저작권청에 신고되지 않았다는 점 ▲생성형 AI의 데이터셋의 저작권 침해 여부를 일일이 증명할 수 없다는 점 등을 들어 원고 승소 판결을 내렸다. 소송을 기각한 윌리엄 오릭 판사는 "스태빌리티AI의 '스테이블 디퓨전' 등 이미지 생성기에 사용된 모든 이미지에 저작권이 있는 것은 아니다"며 "모든 생성 이미지가 저작권 있는 출력물을 내놓는다는 법적 근거도 없다"고 지적했다. 다만 법원은 제기된 일러스트 중 일부에 대해 저작권을 인정함으로써 학습 데이터셋이 갖는 대한 저작권 침해성을 인정해 AI 업계가 술렁이는 중이다.

 

지난 1일 문화체육관광부의 국제 저작권기술 컨퍼런스(ICOTEC)'에 참석한 매튜 새그 에머리대 교수는 데이터셋의 기밀성을 지적하며 대규모 언어 모델(LLM)의 학습 데이터셋이 저작권 논란을 일으킨다고 주장했다. 그는 "AI 모델 자체가 저작물을 침해하는 훈련 데이터의 복제품이자 저작물에 기초한 파생물"이라는 주장했다.

 

AI의 근원이 되는 LLM은 방대한 데이터셋 학습을 전제로 한다. 학습 데이터셋은 일반적으로 기존 데이터로 이루어진다. 지난 3월 메타가 논문을 통해 밝힌 생성형 AI 라마는 웹상에 공개된 데이터를 1조 4000억 토큰(token,인공지능 데이터 단위) 분량 학습했고, 여기에는 커먼크롤 재단 데이터 67.0%, 깃허브 4.5%, 위키백과 4.5% 등 자료가 포함됐다. 오픈AI(OpenAI)에 따르면 GPT-3는 영어 위키백과, 신문기사 등을 선학습했다. 메타와 오픈AI 모두 세간에 공개한 학습 데이터들은 저작권법에 저촉되지 않는다. 공익을 위한 자료들이 대부분이며 개인이 작성했더라도 다양한 이용에 대한 저작권 동의를 거쳤다. 문제는 공개되지 않은 데이터셋에 있다. 학습 데이터셋에 문제를 제기하는 이들은 방대한 용량과 기밀성 등으로 일반인이 각 LLM의 학습 데이터셋에 접근할 수 없다고 지적한다. 더불어 실제로 저작권을 침해한 정황에 결과에서 발견된다고 밝힌다.

 

우리나라도 아직 본격화하진 않았으나 정부는 선제적으로 AI 저작물에 대한 사회적 논의를 끌어갈 방침으로 연내 주요 쟁점 이슈에 대한 가이드라인을 발표할 예정이다. 임성환 문체부 저작권국장은 "저작권은 생성형 인공지능과 관련된 핵심 현안"이라며 "초거대 인공지능과 저작권의 보호·이용이 조화를 이룰 수 있는 정책과 규범을 수립해나갈 계획"이라고 밝혔다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr