"보고 듣고 말한다" … 오픈AI, 사람에 한층 더 가까워진 GPT-4o 공개

챗GPT 개발사 오픈AI가 '보고 듣고 말하는' 새로운 AI 모델을 공개했다.

현지시각으로 13일 오픈AI의 미라 무라티 최고기술책임자(CTO)는 라이브 행사를 통해 'GPT-4o'(GPT-포오)라는 이름의 이 새 AI 모델을 공개하고 시연했다.

'GPT-4o'는 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있는 AI 모델이다.

텍스트는 물론, 청각과 시각으로도 추론하고 이를 말할 수 있는 한층 업그레이드 된 음성 어시스턴트다.

특히 이 모델은 대답 중에 끼어들어도 대화를 계속 이어가는 능력을 갖추고 있어 인간을 뛰어넘는 범용인공지능(AGI) 개발에 한 발 더 다가간 모델이라는 평가가 나온다.

기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식인 반면 GPT-4o는 음성, 텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 실시간으로 제공한다.

응답 속도도 GPT-3.5는 평균 2.8초, GPT-4는 5.4초가 걸리는 반면 GPT-4o는 최소 232밀리초(밀리초·1000분의 1초), 평균 320밀리초에 불과하다.

오픈AI 측은 인간의 응답 속도와 비슷한 수준이며 GPT-4o 모델이 기존 GPT-4 터보보다 두 배 더 빠르고 작동 비용은 2분의 1 수준이라고 설명했다.

한국어 등 50개 언어로 제공되며 실시간 번역도 가능하다.

이날 시연에서 휴대전화로 '내가 좀 긴장한 상태인데 어떻게 진정할 수 있을까'라고 묻자, '숨을 깊이 들이마시라'고 음성으로 답했다.

다른 시연에서는 종이에 적힌 수학 문제를 보여주고 풀어달라고 하자, 시각 기능을 이용해 이른 단계별로 풀어나갔다.

오픈AI는 'GPT-4o' 모델이 지난해 11월 선보였던 기존 GPT-4 터보보다 두 배 더 빠르고 비용은 2분의 1 수준이라고 설명했다.

또 새 모델로 50개 언어에 대한 챗GPT의 품질과 속도가 향상됐으며 이날부터 개발자들이 새 모델을 사용해 애플리케이션을 구축할 수 있도록 오픈AI의 API(응용 프로그램 인터페이스)를 통해서도 이용할 수 있다고 오픈AI는 덧붙였다.

무라티 CTO는 "이번 업데이트 버전은 무료 사용자를 포함한 모든 이들에게 무료로 제공된다"며 "사용 편의성에 관해 우리가 정말로 큰 진전을 이뤘다고 생각하는 것은 이번이 처음"이라고 말했다.

정성훈 기자

이메일 보내기

press@newdaily.co.kr