메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

'AI 비서' 구글은 '고맥락화' 챗GPT는 '생생한 감정' 장점 뚜렷

미라 무라티 오픈AI CTO가 GPT-4o를 설명하고 있다. GPT-4o는 실제와 구분이 어려울 만큼 섬세한 감정을 싣은 음성 답변을 내놓을 수 있다. /오픈AI 라이브 스트리밍 캡처

오픈AI와 구글이 하루 차이를 두고 이용자가 보고 듣는 모든 것을 함께 하는 AI 비서를 선보였다.

 

구글이 공개한 AI 비서는 안드로이드와 iOS가 설치된 모바일 기기에 모두 제공 될 예정이며 스마트폰 카메라를 통한 즉각적이고 맥락화 한 답변을 생성한다. 오픈AI의 AI 비서는 고맥락 대화는 다소 어려우나 대신 인간의 감정을 실제와 구분하기 어려울 만큼 표현하며 50개 언어에 대응한다는 장점이 있다.

 

구글과 오픈AI가 13일과 14일(현지시간) 각기 보고 듣고 말하는 멀티모달 생성형 AI 비서를 공개했다.

 

구글은 미국 캘리포니아에서 연 연례 개발자 회의 'I/O 2024'에서 100만 토큰을 적용한 '제미나이 1.5' 시리즈를 선보였다. 제미나이 1.5 프로는 이전 버전 대비 5배 늘어난 토큰을 통해 '문맥 창(Context Window)'을 갖췄다. 문맥창이란 AI 모델이 명령을 처리하는 동안 확인할 수 있는 새로운 정보의 범위와 크기를 뜻한다.

 

제미나이는 압도적으로 향상된 성능으로 카메라를 통해 실시간으로 정보를 받아들여 처리할 수 있는 수준에 이르렀다. 제미나이를 적용한 '프로젝트 아스트라(Project Astra)'로 명명 된 멀티모달 AI 비서는 스마트폰 카메라를 통해 보이는 사물을 분석하고 음성 명령에 응답하며 한 발 더 나아갔다. 기존 스마트폰 AI 비서가 사용자의 단순한 명령에 응답하고, 일차원적인 조력만을 할 수 있었다면, 구글이 새로 선보인 AI 비서는 이용자의 과거 모습까지도 기억해낸다. 여러 물건이 놓인 책상을 보여준 뒤 무작위 질문을 해 정보값을 과거로 밀어내도, "내 안경의 마지막 위치는 어디야?"라는 질문에 "안경은 0번째 탁자 빨간 사과 옆에 있었다"라고 답해줄 수 있다. 심지어 카메라로 보이는 풍경에 대한 추론까지도 가능하다.

 

순다르 피차이는 "우리는 오랫동안 일상생활에 정말 도움이 될 범용 AI 비서를 구축하고자 했고, 그러기 위해서는 맥락을 이해하고 받아들일 수 있게 보고 들은 것을 기억할 수 있어야 했다"며 "AI 비서를 완성하기 위해 멀티 모달로 설계했고 이번에 이룬 혁신은 사람들의 새롭고 창의적인 아이디어를 실현하는 데 도움을 주리라 확신한다"고 설명했다.

 

전날인 13일 오픈AI 또한 이용자와 실시간 음성 대화가 가능해진 멀티모달 모델을 선보였다. 유튜브 라이브 스트리밍을 통해 선보인 '챗GPT-4o(ChatGPT-4o)'는 기존 챗GPT-4의 업그레이드 모델이다. 이날 스피치에 나선 미라 무라티 오픈AI 최고기술책임자(CTO)는 "기존 GPT-4 터보보다 두 배 더 빠르고 비용은 2분의 1 수준까지 줄이는 데 성공했다"며 "50개 언어에 대한 챗GPT의 품질과 속도가 향상됐으며 이날부터 개발자들이 새 모델을 사용해 애플리케이션을 구축할 수 있도록 오픈AI의 API 또한 공개했다"고 설명했다.

 

GPT-4o의 가장 큰 특징은 기존 모델이 텍스트를 통한 대화만이 가능했던 것과 달리 텍스트는 물론 청각, 시각으로도 사물 인식이 가능하며 이를 말할 수 있게 됐다는 점이다. 이날 시연에서 무라티가 "잠을 잘 수 없는 친구를 위해 이야기를 들려달라"고 주문하자 AI 모델은 다양한 목소리와 감정, 분위기로 이야기를 만들어냈으며, 종이에 적힌 수학 문제를 보고 빠르게 풀기도 했다. 시연에서 나타난 GPT-4o의 음성은 사람과 구분이 불가능한 수준으로 자연스럽게 이어졌고, 무라티에 따르면 사람의 대화 응답 시간과 비슷한 평균 320밀리초(0.32초) 내에 질문에 대한 답변을 내놓았다.

 

무라티 CTO는 "이번 업데이트 버전은 무료 사용자를 포함한 모든 이들에게 무료로 제공된다"며 "사용 편의성에 관해 우리가 정말로 큰 진전을 이뤘다고 생각하는 것은 이번이 처음"이라고 말했다.

 

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr