GPT-4o란?

사업가 손 배경의 파란색 디지털 사용자 인터페이스

작성자

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

GPT-4o란?

GPT-4o는 인공 지능(AI) 개발사 OpenAI가 2024년 5월 출시한 멀티모달 다국어 생성형 사전 학습 트랜스포머 모델입니다. GPT-4o mini, GPT-4 Turbo, 원래의 GPT-4가 포함된 GPT-4 AI 모델 제품군의 플래그십 대규모 언어 모델(LLM)입니다.

GPT-4o의 'o'는 옴니(omni)를 의미하며 GPT-4o가 사운드와 비전 기능을 갖춘 멀티모달 AI 모델임을 강조합니다. 즉, 텍스트, 오디오, 이미지 및 비디오 인풋을 혼합한 프롬프트 데이터 세트를 사용할 수 있습니다. GPT-4o는 이미지 생성도 가능합니다. GPT-4o는 해당 라인의 다른 모델을 구동하는 동일한 트랜스포머 기반 GPT-4 인텔리전스에 멀티미디어 인풋 및 아웃풋 기능을 제공합니다. 

2024년 5월 OpenAI의 봄 업데이트 일환으로 공개된 새로운 ChatGPT 모델은 음성 언어를 실시간으로 번역하고, 감정적인 콘텐츠를 포함하도록 오디오 응답을 조정하며, 실제와 같은 대화에 참여할 수 있는 것으로 나타났습니다. 

GPT-4o와 GPT-4o mini는 모두 미세 조정을 지원하므로 개발자가 이러한 모델을 특정 사용 사례에 적용할 수 있습니다. 

GPT-4o mini란?

GPT-4o mini는 보다 작고 비용 효율적인 GPT-4o 모델이며 OpenAI 제품군에서 가장 빠른 생성형 AI 모델입니다. 수백억 또는 수천억 개의 매개변수가 있는 더 큰 대규모 언어 모델(LLM)과 달리 GPT-4o mini는 소규모 린 모델입니다. 컴팩트한 크기에도 불구하고 비슷한 속도와 약 60%의 비용으로 GPT-3.5 Turbo를 능가하는 성능을 제공합니다. 

같은 계열의 더 큰 버전과 마찬가지로 GPT-4o mini는 멀티모달 기능을 갖추고 있으며 영어 이외의 언어를 지원하고 추론, 수학, 코딩과 같은 일반적인 AI 작업을 처리할 수 있습니다. 이 글의 게시 시점 기준으로, GPT-4o mini는 텍스트와 이미지 인풋을 처리할 수 있습니다. OpenAI는 오디오 및 비디오 콘텐츠에 대한 지원은 보류 중이라고 밝혔습니다. 

개발자는 인풋 토큰 100만 개당 미화 0.15달러, 아웃풋 토큰 백만 개당 미화 0.60센트의 비용으로 애플리케이션 프로그래밍 인터페이스(API)를 통해 GPT-4o mini에 액세스할 수 있습니다.

GPT-4o와 GPT-4 Turbo의 차이

GPT-4o는 멀티모달 인풋과 아웃풋을 단일 신경망으로 자체적으로 처리할 수 있는 '올인원' 플래그십 모델입니다. GPT-4 Turbo 및 GPT-3.5와 같은 이전 모델에서는 사용자가 다양한 콘텐츠 유형을 입력하고 생성하려면 OpenAI API와 기타 지원 모델이 필요했습니다. GPT-4 Turbo는 이미지 프롬프트를 처리할 수 있지만 API 지원 없이는 오디오를 처리할 수 없습니다. 

GPT-4o의 멀티모달 특성은 GPT-4 Turbo와 비교할 때 가장 큰 혁신이며 다양한 기능 발전을 뒷받침합니다. 

  • 실시간 오디오 대화 

  • 어조 기능 

  • 비디오 처리 내장 

  • 이미지 생성

  • 토큰 효율성 향상

실시간 오디오 대화

GPT-4o의 더 빠른 속도와 멀티모달 기능을 통해 GPT-4 Turbo보다 더 사람과 비슷한 속도로 대화에 참여하고 언어를 번역할 수 있습니다. 출시 발표 시 함께 제공된 비디오 데모1에서 ChatGPT-4o는 영어와 스페인어 사용자 간에 실시간으로 번역하는 모습을 보여주었습니다. GPT-4o는 50개 이상의 언어로 챗봇 음성 지원을 제공합니다. 

GPT-4o는 오디오 인풋을 자체적으로 처리할 수 있기 때문에 이전 모델보다 지연 시간(인풋이 수신되는 순간부터 아웃풋을 생성하는 데 걸리는 시간)이 더 짧습니다. 인간의 일반적인 응답 시간인 210밀리초와 비슷한 320밀리초 만에 오디오 인풋에 응답합니다. 

이전 GPT-4 버전에서는 유사한 서비스를 제공하기 위해 파이프라인에 여러 모델을 조립해야 했기 때문에 지연시간이 5.4초로 늘어났습니다. 이전에는 OpenAI의 Whisper API가 오디오 프롬프트를 텍스트로 변환하여 GPT-4 Turbo에 공급한 다음, 텍스트 음성 변환(TTS) 서비스가 GPT의 응답을 다시 오디오로 변환했습니다. 

GPT-4 Turbo는 일반적으로 더 느린 모델이기도 합니다. AI 평가 기관인 Artificial Analysis2의 벤치마크 테스트에서 GPT-4o는 초당 110개 토큰의 속도를 보였으며, 이는 GPT-4 Turbo보다 약 3배 더 빠릅니다. 동일한 테스트에서 GPT-4o는 Claude 3 Opus와 Gemini 1.5 Pro를 포함한 많은 경쟁 제품보다 우수한 성능을 보였습니다. 

어조 기능

이전의 Whisper–GPT–TTS 파이프라인에서는 오디오 인풋을 제공하면 GPT-4 Turbo는 말하는 내용의 텍스트 트랜스크립션만 수신했습니다. 트랜스크립션은 사용자가 말한 내용을 분리하면서 배경 소음, 화자 신원, 목소리 톤을 걸러내므로 GPT가 상당한 컨텍스트 데이터를 놓치게 됩니다. 

멀티모달 모델인 GPT-4o는 전체 오디오 인풋을 처리하고 이러한 추가 컨텍스트에 적절하게 응답할 수 있습니다. 자연어 처리(NLP)가 향상되어 음성 모드에서 사용할 때 정서, 어조 및 감정적 콘텐츠를 아웃풋 생성에 포함할 수 있습니다.

비디오 처리 내장

GPT-4o는 텍스트 및 오디오 외에도 이미지 및 비디오 인풋을 처리합니다. GPT-4o는 라이브 카메라 피드에 연결하거나 사용자 화면을 녹화한 다음, 보이는 내용을 설명하고 질문에 답할 수 있습니다. 사용자는 스마트폰 카메라를 켜고 친구나 동료를 대하듯 ChatGPT-4o와 대화할 수 있습니다. 

이전에는 GPT-4 Vision API가 있어야 GPT-4 Turbo가 시각적 콘텐츠를 분석할 수 있었습니다.

이미지 생성

OpenAI의 출시 발표에 따르면 GPT-4o는 자체적인 이미지 생성 기능을 제공합니다. GPT-4 Turbo는 OpenAI의 DALL-E 3 모델에 연결해야 이미지를 생성할 수 있었습니다. GPT-4 Turbo가 텍스트 기반 사용자 프롬프트를 제공하면 DALL-E가 이미지를 생성합니다.

토큰 효율성 향상

OpenAI는 GPT-4o를 통해 GPT-4 토큰화 기능을 개선했습니다. 토큰화는 LLM이 단어를 데이터로 변환하는 프로세스입니다. 각 토큰은 단어 전체 또는 단어의 일부와 구두점을 나타냅니다. AI 모델은 단어를 토큰으로 변환한 다음, 복잡한 수학을 적용하여 데이터를 분석합니다.

GPT-4o는 중국어, 힌디어, 아랍어와 같은 비로마권 언어를 이전 버전보다 훨씬 효율적으로 토큰으로 변환합니다. OpenAI는 인풋 또는 아웃풋 토큰 기준으로 API 사용자에게 요금을 청구하기 때문에, 로마자가 아닌 스크립트에서 보다 효율적인 GPT-4o를 사용하면 해당 언어의 사용 사례에서 비용 효율성이 향상됩니다.

그 외의 GPT-4o 기능

새로운 멀티모달 기능 외에도 GPT-4o는 이전 버전과 동일한 여러 가지 기능을 제공합니다. 

  • 질문-답변 

  • 문서 분석 및 요약

  • 감정 분석 

  • 데이터 분석 

  • 코딩

    질문-답변

    지식 제한 시점이 2023년 10월인 GPT-4o는 지식 기반 측면에서 OpenAI의 가장 최신 모델입니다. 지식 제한 시점은 모델의 학습 데이터가 종료되는 시점입니다. 사용자는 GPT-4o에 질문하고 답변을 받을 수 있지만 할루시네이션의 위험이 있습니다.

    문서 분석 및 요약

    사용자가 파일을 업로드하면 ChatGPT는 분석하고 요약할 수 있습니다. GPT-4o는 128,000개 토큰의 컨텍스트 윈도우를 통해 대규모 인풋 데이터 세트를 처리할 수 있지만, Claude 3만큼 크지는 않습니다.  

    LLM의 컨텍스트 윈도우는 전체 인풋 시퀀스에 대한 컨텍스트 인식을 유지하면서 입력할 수 있는 최대 토큰 수를 나타냅니다. 컨텍스트 윈도우가 클수록 AI 모델이 더 복잡한 프롬프트를 수신하고 응답을 생성할 때 사용자로부터 더 많은 정보를 포함할 수 있습니다. 

    GPT-4는 이미 GPT-4 Vision API를 사용하여 광학 문자 인식(OCR)을 통해 문서를 읽는 실제 능력을 입증했습니다.

    감정 분석

    감정 분석은 사람의 말이나 행동에서 감정을 파악하는 과정입니다. 연구자들은 사용자 후기 분석과 같이 대규모로 감정 분석을 수행하기 위해 AI 모델을 사용합니다. 멀티모달 모델인 GPT-4o는 오디오 인풋에서 감정을 식별할 수 있습니다.

    데이터 분석

    GPT-4o는 셀프 서비스 분석 플랫폼에서 볼 수 있듯이 복잡한 데이터 세트를 처리하고 실행 가능한 인사이트를 추출할 수 있습니다. 또한 데이터를 차트와 그래프로 표현할 수도 있습니다.

    코딩

    GPT-4o는 코딩 기능을 갖춘 최초의 LLM은 아니지만 멀티모달 특성으로 프로그래머의 워크플로를 단순화할 수 있습니다. 사용자는 코드를 복사하여 사용자 인터페이스에 붙여넣을 필요 없이, 화면을 공유하여 GPT-4o가 코드를 분석하고 피드백을 제공하며 코드 스니펫을 생성하도록 할 수 있습니다.

    GPT-4o 작동 방식

    GPT-4o를 공개하면서 OpenAI는 새 모델을 경쟁사와 비교하는 LLM 벤치마킹 테스트 결과를 발표했습니다. GPT-4 Turbo, 처음 출시되었을 때의 GPT-4, Anthropic의 Claude 3 Opus, Meta의 Llama 3 400B, Google의 Gemini 1.5 Pro 및 Gemini 1.0 Ultra가 여러 주요 벤치마킹 테스트에서 GPT-4o와 함께 테스트되었습니다. 

    테스트에는 지식 기반 및 문제 해결 능력을 평가하는 MMLU(Massive Multitask Language Understanding)와 코드 검사 테스트인 HumanEval이 포함되었습니다. OpenAI는 광범위한 추론이 필요한 과학 시험인 GPQA(Graduate-Level Google-Proof Q&A)에서 Google 모델과 비교해 GPT-4o를 테스트하지 않았습니다. 또한 10개 언어로 출제되는 수학 시험인 MGSM(Multilingual Grade School Math)에 Llama 3 400B는 포함되지 않았습니다. 

    GPT-4o는 여섯 가지 테스트 중 네 개의 테스트에서 1위를 차지했습니다. MGSM에서는 Claude 3 Opus에 이어 2위를 차지했으며, 여러 단락에 걸친 모델의 추론 능력을 테스트하는 DROP(Discrete Reasoning Over Paragraphs)에서도 GPT-4 Turbo에 이어 2위를 차지했습니다. 

    전반적으로 GPT-4o는 GPT-4 Turbo보다 성능이 크게 향상되지 않았습니다. 비교적 발전한 부분은 주로 멀티모달 기능과 속도 향상입니다.

    GPT-4o 액세스 방법

    OpenAI는 다양한 위치와 제품에서 무료 및 프리미엄 사용자 모두에게 GPT-4o를 제공하고 있습니다. 

    • ChatGPT Plus, Team, Enterprise

    • ChatGPT Free 

    • 데스크톱 및 모바일 앱 

    • AI 애플리케이션 

    • Microsoft Azure OpenAI Studio

    ChatGPT Plus, Teams, Enterprise

    OpenAI의 프리미엄 ChatGPT 서비스 가입자에게는 다양한 수준의 GPT-4o 액세스 권한이 제공됩니다. ChatGPT Plus 사용자는 GPT-4o로 3시간마다 최대 80개의 메시지를 전송할 수 있으며, Team 사용자는 더 많은 액세스 권한을 갖습니다. Enterprise 사용자는 GPT-4o에 무제한으로 액세스할 수 있습니다.

    ChatGPT Free

    무료 ChatGPT 티어 사용자는 허용되는 수요 한도 내에서 챗봇의 기본 모델로 GPT-4o를 이용할 수 있습니다. 무료 사용자가 한도에 도달하면 GPT-4o mini3로 롤백됩니다.

    데스크톱 및 모바일 앱

    OpenAI는 새 모델을 사용자의 MacBook과 통합하는 macOS 데스크톱 앱을 GPT-4o와 함께 출시했습니다. OpenAI의 ChatGPT 모바일 앱도 사용자의 구독 티어에 따라 GPT-4o에 대한 액세스 권한을 부여합니다.

    AI 애플리케이션

    ChatGPT Plus, Teams 및 Enterprise 사용자는 자신과 다른 사용자가 특정 사용 사례에 맞는 특수 버전의 GPT-4o를 사용할 수 있도록 사용자 지정 GPT를 구축할 수 있습니다. 개발자는 API를 통해 GPT-4o에 연결하여 다른 AI 툴을 만들 수도 있습니다.

    Microsoft Azure OpenAI Studio

    GPT-4o 및 GPT-4o mini는 모두 Microsoft Azure 엔터프라이즈 AI 플랫폼의 일부인 Microsoft Azure OpenAI Studio에서 사용할 수 있습니다. 이 글의 게시 시점 기준으로, Copilot은 GPT-4 Turbo를 계속 제공하며 Microsoft는 2024년 5월4 AI 서비스가 곧 GPT-4o 지원을 받게 될 것이라고 발표했습니다.

    GPT-4o 사용과 관련한 위험

    보이스 피싱 사기, 딥페이크 및 기타 유형의 오디오 사기에 악용될 가능성을 줄이기 위해 OpenAI는 출시 당시 GPT-4o의 사전 설정 음성을 4개로 제한했습니다. 그러나 다른 생성형 AI 릴리스와 마찬가지로 GPT-4o는 불완전한 모델입니다. 사용 시 다음과 같은 위험이 있습니다. 

    • 할루시네이션: 모든 생성형 AI 모델과 마찬가지로 GPT-4o는 데이터에서 존재하지 않는 패턴을 감지하여 잘못된 정보를 사실인 것처럼 표시하는 할루시네이션을 일으킬 수 있습니다. AI가 생성한 콘텐츠를 사전 조사나 팩트 체크 없이 사용하는 것은 결코 권장되지 않습니다. 
    • 데이터 침해: OpenAI는 사용자가 제공한 인풋을 계속 저장하고 이를 사용하여 모델을 학습시킵니다. 사용자가 보호된 데이터를 ChatGPT에 입력하면 모델이 다른 사용자에게 응답할 때 이 데이터가 표시될 수도 있습니다. 
    • 지식재산권 위반: OpenAI는 뉴스 기사와 같은 저작권이 있는 자료를 포함하여 온라인에서 사용할 수 있는 데이터를 토대로 모델을 학습시킵니다. 모델은 저작권이 있는 콘텐츠를 실수로 응답에 생성할 수 있습니다. 

    OpenAI는 내부 기준에 따라 GPT-4o를 중간 위험 모델로 분류했습니다. 모델은 사이버 보안, CBRN(화학, 생물학, 방사능 및 핵 위협), 설득 및 모델 자율성이라는 네 가지 메트릭에 따라 평가됩니다. OpenAI는 각 위협 분야의 개발을 촉진하는 데 어느 정도로 사용할 수 있는지에 따라 모델을 평가합니다. 

    평가가 완료되면 모델에는 필드별로 낮음에서 위험까지 범위의 점수가 부여되며, 완화 조치를 고려한 후 가장 높은 단일 위협 순위에 해당하는 전체 점수가 할당됩니다. 

    GPT-4o는 4개 카테고리 중 3개에서 낮음 점수를 받았고, 설득에서는 중간 점수를 받았습니다. 이는 "일반적인 인간이 작성한 콘텐츠와 비슷한 설득 효과를 가진 (상호작용 가능성이 있는) 콘텐츠를 만들 수 있다"는 것을 의미합니다.5 예를 들어, 악의적인 행위자가 허위 정보 기사와 소셜 미디어 콘텐츠를 만드는 데 이용하는 것이 이론적으로 가능합니다. 

    각주

    1. Hello GPT-4o, OpenAI, 2024년 5월 13일

    2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024년

    3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024년

    4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 2024년 5월 24일

    5. Preparedness 
Framework 
(Beta), OpenAI, 2023년 12월 18일