Apa itu GPT-4o?

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

Apa itu GPT-4o?

GPT-4o adalah model transformator pra-terlatih generatif multimodal dan multibahasa yang dirilis pada Mei 2024 oleh pengembang kecerdasan buatan (AI) OpenAI. Ini adalah model bahasa besar (LLM) andalan dalam keluarga model AI GPT-4, yang juga mencakup GPT-4o mini, GPT-4 Turbo, dan GPT-4 asli.

“O” dalam GPT-4o adalah singkatan dari omni dan menyoroti bahwa GPT-4o adalah model AI multimodal dengan kemampuan suara dan visi. Ini berarti ia dapat menerima kumpulan data prompt sebagai campuran input teks, audio, gambar dan video. GPT-4o juga mampu menghasilkan gambar. GPT-4o menghadirkan kemampuan input dan hasil multimedia ke kecerdasan GPT-4 bertenaga transformator yang sama yang mendorong model lain di lini ini.

Diungkapkan pada Mei 2024 sebagai bagian dari Pembaruan Musim Semi OpenAI, model baru ChatGPT tampaknya menerjemahkan bahasa lisan secara real time, mengadaptasi respons audio untuk menyertakan konten emosional, dan terlibat dalam percakapan yang nyata.

Baik GPT-4o maupun GPT-4o mini mendukung fine-tuning atau penyempurnaan, yang memungkinkan pengembang menerapkan model ini terhadap contoh penggunaan tertentu.

Apa itu GPT-4o mini?

GPT-4o mini adalah model GPT-4o yang lebih kecil dan hemat biaya serta model AI generatif tercepat dalam rangkaian produk OpenAI. Tidak seperti model bahasa besar (LLM) yang lebih besar dengan puluhan atau ratusan miliar parameter, GPT-4o mini adalah model yang kecil dan ramping. Meskipun ukurannya ringkas, ia mengungguli GPT-3.5 Turbo dengan kecepatan yang sama dan dengan biaya sekitar 60%.

Seperti saudaranya yang lebih besar, GPT-4o mini memiliki kemampuan multimodal, mendukung bahasa selain bahasa Inggris dan dapat menangani tugas-tugas AI seperti penalaran, matematika dan pengodean. Pada saat diterbitkan, GPT-4o mini dapat memproses input teks dan gambar. OpenAI mengklaim bahwa dukungan untuk konten audio dan video masih dalam proses.

Pengembang dapat mengakses GPT-4o mini melalui antarmuka pemrograman aplikasi (API) dengan biaya USD 0,15 per juta token input dan USD 0,60 sen per juta token hasil.

Apa perbedaan GPT-4o dengan GPT-4 Turbo?

GPT-4o adalah model flagship multi-fungsi yang mampu memproses input dan hasil multimodal dengan sendirinya sebagai neural networks tunggal. Dengan model sebelumnya seperti GPT-4 Turbo dan GPT-3.5, pengguna memerlukan API OpenAI dan model pendukung lainnya untuk memasukkan dan menghasilkan beragam jenis konten. Meskipun GPT-4 Turbo dapat memproses prompt gambar, ia tidak mampu memproses audio tanpa bantuan API.

Sifat multimodal GPT-4o merupakan terobosan terbesar dibandingkan dengan GPT-4 Turbo dan mendukung banyak kemajuannya:

Percakapan audio real-time

Kemampuan nada suara

Pemrosesan video bawaan

Pembuatan gambar

Efisiensi token yang lebih besar

Percakapan audio real-time

Kecepatan dan kemampuan multimodal GPT-4o yang lebih cepat memungkinkannya untuk terlibat dalam percakapan dan menerjemahkan bahasa dengan kecepatan yang lebih manusiawi daripada GPT-4 Turbo. Dalam demo video sebagai bagian dari pengumuman perilisannya¹, ChatGPT-4o diperlihatkan menerjemahkan secara real time antara penutur bahasa Inggris dan Spanyol. GPT-4o menghadirkan dukungan suara chatbot dalam lebih dari 50 bahasa.

Karena dapat memproses input audio dengan sendirinya, GPT-4o memiliki latensi yang lebih rendah—waktu yang dibutuhkan untuk menghasilkan output sejak input diterima—dibandingkan model sebelumnya. Ini merespons input audio dalam 320 milidetik, sebanding dengan waktu respons manusia biasa 210 milidetik.

Iterasi sebelumnya GPT-4 membutuhkan beberapa model yang dirangkai dalam sebuah pipeline untuk menyediakan layanan serupa, yang meningkatkan latensi menjadi 5,4 detik. Sebelum GPT-4o, API Whisper dari OpenAI mengubah prompt audio menjadi teks, kemudian mengirimkannya ke GPT-4 Turbo, lalu layanan Text to Speech (TTS) mengubah respons kembali menjadi audio.

GPT-4 Turbo juga merupakan model yang lebih lambat secara umum. Dalam tes tolak ukur oleh organisasi evaluasi AI, Artificial^Analysis2, GPT-4o menunjukkan kecepatan 110 token per detik, sekitar tiga kali lebih cepat dari GPT-4 Turbo. Dalam tes yang sama, GPT-4o juga mengungguli banyak pesaing, termasuk Claude 3 Opus dan Gemini 1.5 Pro.

Kemampuan nada suara

Pipeline Whisper-GPT-TTS sebelumnya berarti bahwa ketika mengirimkan input audio, GPT-4 Turbo hanya menerima transkripsi teks dari apa yang sedang diucapkan. Transkripsi ini mengisolasi konten yang diucapkan oleh pengguna sambil menyaring kebisingan latar belakang, identitas pembicara, dan nada suara, sehingga GPT tidak mendapatkan data kontekstual yang substansial.

Sebagai model multimodal, GPT-4o dapat memproses keseluruhan input audio dan merespons dengan tepat terhadap konteks tambahan ini. Pemrosesan bahasa alami (NLP) yang ditingkatkan memungkinkannya untuk memasukkan sentimen, nada, dan konten emosional ke dalam hasil outputnya ketika digunakan dalam mode suara.

Pemrosesan video bawaan

GPT-4o menangani input gambar dan video selain teks dan audio. GPT-4o dapat terhubung ke umpan kamera langsung atau merekam layar pengguna, kemudian menjelaskan apa yang dilihatnya dan menjawab pertanyaan. Pengguna dapat mengaktifkan kamera ponsel mereka dan berbicara dengan ChatGPT-4o dengan cara yang sama seperti yang mereka lakukan kepada teman atau rekan kerja.

Sebelumnya, GPT-4 Vision API memungkinkan GPT-4 Turbo menganalisis konten visual.

Pembuatan gambar

Menurut pernyataan rilis OpenAI, GPT-4o menawarkan kemampuan menghasilkan gambar secara mandiri. GPT-4 Turbo hanya dapat menghasilkan gambar dengan menghubungkan ke model DALL-E 3 dari OpenAI. GPT-4 Turbo akan memberikan prompt kepada pengguna, kemudian DALL-E akan membuat gambar.

Efisiensi token yang lebih besar

OpenAI meningkatkan kemampuan tokenisasi GPT-4 dengan GPT-4o. Tokenisasi adalah proses dimana LLM mengubah kata menjadi data. Setiap token mewakili seluruh kata atau bagian dari satu dan tanda baca. Model AI mengubah kata menjadi token, kemudian menerapkan matematika kompleks untuk menganalisis data tersebut.

GPT-4o mengonversi bahasa non-Romawi, seperti bahasa Mandarin, Hindi, dan Arab, menjadi token jauh lebih efisien daripada pendahulunya. Karena OpenAI mengenakan biaya kepada pengguna API per token input atau hasil, peningkatan efisiensi GPT-4o dalam skrip non-Romawi membuatnya lebih hemat biaya untuk contoh penggunaan dalam bahasa tersebut.

Apa lagi yang dapat GPT-4o lakukan?

Selain kemampuan multimodalnya yang baru, GPT-4o menghadirkan banyak fungsi yang sama seperti yang terlihat pada iterasi sebelumnya:

Menjawab-pertanyaan

Analisis dan ringkasan dokumen

Analisis sentimen

Analisis data

Pengkodean

Menjawab-pertanyaan

Dengan batas pengetahuan Oktober 2023, GPT-4o adalah model terbaru OpenAI dalam hal basis pengetahuan. Batas akhir pengetahuan adalah titik waktu di mana data pelatihan model berakhir. Pengguna dapat mengajukan pertanyaan kepada GPT-4o dan menerima jawaban, meskipun dengan risiko halusinasi.

Analisis dan ringkasan dokumen

Pengguna dapat mengunggah berkas dan meminta ChatGPT menganalisis dan meringkasnya. Jendela konteks GPT-4o yang berjumlah 128.000 token memungkinkannya untuk memproses kumpulan data input yang besar, meskipun itu tidak sebesar Claude 3.

Jendela konteks LLM mewakili jumlah maksimum token yang dapat dimasukkan sambil mempertahankan kesadaran kontekstual di seluruh urutan input. Jendela konteks yang lebih besar memungkinkan model AI untuk menerima prompt yang lebih kompleks dan memasukkan lebih banyak informasi dari pengguna saat menghasilkan respons.

GPT-4 telah menunjukkan kemampuan nyata untuk membaca dokumen melalui pengenalan karakter optik (OCR) dengan menggunakan GPT-4 Vision API.

Analisis sentimen

Analisis sentimen adalah proses untuk mengetahui perasaan seseorang dari pernyataan atau perilaku mereka. Para peneliti menggunakan model AI untuk melakukan analisis sentimen dalam skala besar—misalnya, saat menganalisis ulasan pengguna. Sebagai model multimodal, GPT-4o dapat mengidentifikasi sentimen dari input audio.

Analisis data

GPT-4o dapat memproses kumpulan data yang kompleks dan menyaring insight yang dapat ditindaklanjuti, seperti yang terlihat pada platform analisis layanan mandiri. GPT-4o juga dapat mewakili data sebagai bagan dan grafik.

Pengkodean

GPT-4o bukanlah LLM pertama yang memiliki kemampuan pengodean, tetapi sifatnya yang multimodal dapat menyederhanakan alur kerja bagi para programmer. Dibanding menyalin dan menempelkan kode ke antarmuka pengguna, pengguna dapat berbagi layar mereka dan memungkinkan GPT-4o untuk menganalisis kode mereka, memberikan umpan balik, dan menghasilkan cuplikan kode.

Bagaimana kinerja GPT-4o?

Saat mengungkapkan GPT-4o, OpenAI merilis hasil uji benchmarking LLM yang membandingkan model baru mereka dengan kompetisi. GPT-4 Turbo, GPT-4 saat pertama kali dirilis, Claude 3 Opus dari Anthropic, Llama 3 400B dari Meta, serta Gemini 1.5 Pro dan Gemini 1.0 Ultra dari Google telah diuji bersama dengan GPT-4o dalam beberapa pengujian pembandingan atau benchmark terkemuka.

Pengujian ini termasuk Massive Multitask Language Understanding (MMLU), yang menilai basis pengetahuan dan kemampuan pemecahan masalah, dan HumanEval, sebuah uji pemeriksaan kode. OpenAI tidak menguji GPT-4o terhadap model Google di Graduate-Level Google-Proof Q&A (GPQA), ujian sains yang membutuhkan penalaran yang luas. Llama 3 400B juga tidak disertakan dalam Multilingual Grade School Math (MGSM), ujian matematika yang diberikan dalam 10 bahasa.

GPT-4o menempati posisi pertama dalam empat dari enam pengujian, berada di urutan kedua setelah Claude 3 Opus di MGSM dan GPT-4 Turbo di Discrete Reasoning Over Paragraphs (DROP), yang menguji kemampuan model untuk melakukan penalaran di beberapa paragraf.

Secara keseluruhan, GPT-4o tidak menunjukkan peningkatan kinerja yang signifikan dibandingkan GPT-4 Turbo. Kemajuan komparatifnya utamanya terletak pada kemampuan multimodalnya dan peningkatan kecepatannya.

Bagaimana cara mengakses GPT-4o?

OpenAI menyediakan GPT-4o bagi pengguna secara gratis dan premium di berbagai lokasi dan produk:

ChatGPT Plus, Team and Enterprise

ChatGPT Gratis

Aplikasi desktop dan mobile

Aplikasi AI

Microsoft Azure OpenAI Studio

ChatGPT Plus, Teams dan Enterprise

Pelanggan layanan ChatGPT premium OpenAI memiliki berbagai tingkat akses ke GPT-4o. Pengguna ChatGPT Plus dapat mengirim hingga 80 pesan setiap 3 jam pada GPT-4o, dengan pengguna Tim mendapatkan lebih banyak akses. Pengguna Enterprise memiliki akses tak terbatas ke GPT-4o.

ChatGPT Gratis

Pengguna ChatGPT tingkat gratis dapat menggunakan GPT-4o sebagai model default di balik chatbot selama permintaan memungkinkan. Saat pengguna gratis mencapai batasnya, mereka akan dikembalikan ke GPT-4o mini³.

Aplikasi desktop dan mobile

OpenAI merilis aplikasi desktop macOS bersama dengan GPT-4o yang mengintegrasikan model baru ini dengan MacBook pengguna. Aplikasi mobile ChatGPT OpenAI juga memberikan akses ke GPT-4o berdasarkan tingkat langganan pengguna.

Aplikasi AI

Pengguna ChatGPT Plus, Teams, dan Enterprise dapat membangun GPT khusus yang dengannya mereka dan orang lain dapat menggunakan versi khusus GPT-4o yang disesuaikan dengan contoh penggunaan tertentu. Pengembang juga dapat terhubung ke GPT-4o melalui API untuk membuat alat AI lainnya.

Microsoft Azure OpenAI Studio

GPT-4o dan GPT-4o mini tersedia di Microsoft Azure OpenAI Studio, bagian dari platform AI perusahaan Azure Microsoft. Pada saat penerbitan, Copilot lanjutkan menawarkan GPT-4 Turbo, meskipun Microsoft mengumumkan pada Mei²⁰²⁴ bahwa layanan AI-nya akan segera menerima dukungan GPT-4o.

Apa saja risiko menggunakan GPT-4o?

Untuk mengurangi potensi penggunaan dalam penipuan vishing, deepfakes, dan jenis penipuan audio lainnya, OpenAI membatasi GPT-4o menjadi empat suara yang telah ditetapkan pada saat peluncuran. Namun seperti halnya rilis genAI lainnya, GPT-4o adalah model yang tidak sempurna. Risiko penggunaannya meliputi:

Halusinasi: Seperti semua model AI generatif, GPT-4o dapat berhalusinasi—ketika mendeteksi pola dalam datanya yang tidak ada, menyebabkannya menyajikan informasi yang salah sebagai faktual. Tidak pernah disarankan untuk menggunakan konten yang dihasilkan AI tanpa terlebih dahulu memeriksa atau mengecek faktanya.

Pelanggaran data: OpenAI terus menyimpan input yang disediakan pengguna dan melatih modelnya dengannya. Pengguna yang memasukkan data yang dilindungi ke ChatGPT mungkin mendapati bahwa data mereka muncul dalam balasan model kepada pengguna lain.

Pelanggaran kekayaan intelektual: OpenAI melatih modelnya pada data yang tersedia secara online, termasuk materi yang dilindungi hak cipta seperti artikel berita. Model dapat secara tidak sengaja menghasilkan konten berhak cipta sebagai bagian dari respons.

OpenAI mengklasifikasikan GPT-4o sebagai model berisiko menengah pada skala internal mereka. Model dievaluasi berdasarkan empat metrik ancaman—keamanan siber, CBRN (ancaman kimia, biologi, radiologi, dan nuklir), persuasi, dan otonomi model. OpenAI menilai model berdasarkan sejauh mana model tersebut dapat digunakan untuk memajukan perkembangan di setiap bidang ancaman.

Setelah dinilai, model diberi skor mulai dari Rendah hingga Kritis di setiap bidang, kemudian diberi skor keseluruhan yang sesuai dengan peringkat ancaman tertinggi tunggal mereka setelah mempertimbangkan langkah-langkah mitigasi apa pun.

GPT-4o memperoleh skor Rendah dalam tiga dari empat kategori, dengan skor Medium dalam Persuasi. Ini berarti "dapat membuat konten (yang berpotensi interaktif) dengan efektivitas persuasif yang sebanding dengan konten yang ditulis oleh manusia."⁵ Misalnya, aktor jahat mungkin secara teoretis menggunakannya untuk membuat artikel disinformasi dan konten media sosial.

Catatan kaki

1. Hello GPT-4o, OpenAI, 13 Mei 2024

2. GPT-4o: Quality, Performance, & Price Analysis, Artificial Analysis, 2024

3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024

4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 24 Mei 2024

5. Preparedness  Framework  (Beta), OpenAI, 18 Desember 2023