LLM API: Kiat untuk menjembatani kesenjangan

13 Desember 2024

Penyusun

Cole Stryker

Editorial Lead, AI Models

Gather

Saat mengunjungi negara dengan bahasa yang tidak Anda kuasai, Anda bisa mengandalkan teman sebagai penerjemah atau menggunakan aplikasi penerjemah untuk berkomunikasi, misalnya saat menanyakan arah. Dengan cara ini, Anda tetap dapat berinteraksi tanpa harus mempelajari seluruh bahasa, terutama untuk kunjungan singkat.

Di ranah model bahasa besar (LLM), antarmuka pemrograman aplikasi (API) bertindak sebagai penerjemah, memungkinkan pertukaran tanpa batas antara LLM dan aplikasi kecerdasan buatan (AI). API ini mempermudah integrasi pemrosesan bahasa alami (NLP) dan kemampuan natural language understanding ke dalam berbagai sistem perangkat lunak.

Melalui LLM API, bisnis dapat memanfaatkan model AI dalam alur kerja mereka. Peretail online, misalnya, dapat menghubungkan chatbot layanan pelanggan mereka ke model bahasa untuk respons yang lebih disesuaikan yang mendorong interaksi alami dan menarik. Demikian pula, perusahaan dapat menghubungkan asisten pengodean AI mereka ke LLM untuk analisis kode dan pembuatan kode yang lebih kuat.

Cara kerja API LLM

API LLM biasanya didasarkan pada arsitektur respons-permintaan yang mengikuti serangkaian langkah:

  1. Aplikasi mengirimkan permintaan—umumnya dalam bentuk permintaan protokol transfer hypertext (HTTP)—ke API. Sebelum transmisi, aplikasi pertama-tama mengubah permintaan ke dalam format data yang diperlukan API (biasanya dalam JavaScript Object Notation atau JSON), yang berisi informasi seperti varian model, prompt aktual, dan parameter lainnya.

  2. Setelah API menerima permintaan, API meneruskannya ke LLM untuk diproses.

  3. Model machine learning menggunakan kemampuan NLP—seperti pembuatan konten, menjawab pertanyaan, analisis sentimen, pembuatan teks atau rangkuman teks—untuk menghasilkan respons yang kemudian dikirim ke API.

  4. API mengirimkan respons ini kembali ke aplikasi.

Untuk mengakses API LLM, pengguna harus mendaftar dengan penyedia yang mereka pilih dan membuat kunci API untuk otentikasi.

Token dan harga

Harga adalah komponen penting dari API LLM. Penyedia menawarkan poin harga yang bervariasi berdasarkan model mereka.

Untuk memahami cara kerja harga LLM API, Anda harus terlebih dahulu memahami konsep token. Untuk model bahasa, token adalah representasi kata-kata yang dapat dibaca mesin. Token dapat berupa huruf, tanda baca, bagian dari kata atau seluruh kata itu sendiri.

Token adalah unit teks terkecil yang dapat diproses oleh model sebagai input dan dihasilkan sebagai output. Token juga menjadi dasar penetapan harga layanan. Sebagian besar penyedia menerapkan model harga bayar sesuai penggunaan, di mana biaya penggunaan API LLM dihitung berdasarkan jumlah token, biasanya per seribu atau jutaan token, dengan tarif terpisah untuk token input dan output.

Harga berbasis token ini mencerminkan biaya komputasi dan pemrosesan yang terkait dengan menjalankan LLM. Hal ini juga memungkinkan transparansi dan fleksibilitas, mengakomodasi pola penggunaan yang berbeda di antara bisnis.

Manfaat dan tantangan API LLM

Menggabungkan data atau layanan perusahaan dengan lapisan AI yang dibawa oleh API LLM membuat aplikasi dunia nyata yang lebih kuat. Berikut adalah beberapa manfaat yang dapat ditawarkan oleh API LLM:

  • Aksesibilitas: Bisnis dapat manfaatkan kemampuan bahasa AI tanpa memerlukan pengetahuan yang komprehensif dan keahlian dalam AI. Mereka juga tidak perlu berinvestasi dalam mengembangkan model mereka sendiri dan biaya infrastruktur terkait.
  • Kustomisasi: Melalui API LLM, organisasi dapat melakukan fine-tuning model bahasa yang besar agar sesuai dengan tugas atau domain tertentu.
  • Pembaruan berkala: Penyedia secara teratur memperbarui algoritma mereka guna meningkatkan kinerja dan menyesuaikan dengan perkembangan pesat dalam AI.
  • Skalabilitas: API LLM biasanya dapat mengelola permintaan dalam jumlah besar secara bersamaan dan berkembang seiring dengan pertumbuhan bisnis.

Terlepas dari keuntungan ini, API LLM juga datang dengan tantangan:

  • Biaya: Antarmuka ini bisa jadi mahal, khususnya untuk penggunaan volume tinggi atau skala besar. Perusahaan harus mengelola biaya mereka secara efektif untuk memaksimalkan nilai API LLM.
  • Kerentanan keamanan: Penjahat siber dapat menggunakan titik akhir API untuk melakukan tindakan berbahaya, seperti mengekstraksi data sensitif, menginstal malware, atau melaksanakan serangan denial-of-service terdistribusi (DDoS) dengan membanjiri sistem dengan permintaan.

 

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Kiat untuk menggunakan API LLM secara efisien

API LLM membuka peluang bagi perusahaan untuk mewujudkan potensi penuh aplikasi mereka melalui AI. Berikut adalah lima teknik untuk membantu bisnis menggunakan API LLM dengan lebih efisien:

1. Pertimbangkan contoh penggunaan Anda

Pilih model bahasa yang paling sesuai dengan contoh penggunaan Anda. Mulailah dengan fitur dasar dan secara bertahap tingkatkan ke fitur yang lebih canggih.

Misalnya, jika Anda hanya ingin melakukan analisis sentimen, model yang lebih kecil, sederhana, dan hemat biaya sudah cukup. Namun, jika Anda memerlukan respons cepat dan real-time, seperti pada chatbot layanan pelanggan atau aplikasi penerjemahan, sebaiknya pilih model yang lebih besar dan terbaru. Untuk tugas yang lebih kompleks, varian model terbaru dan terkuat mungkin diperlukan.

Beberapa penyedia bahkan menyediakan API dan model yang disesuaikan untuk contoh penggunaan tertentu. API Asisten OpenAI ditargetkan untuk membangun asisten AI, sementara Mistral memiliki API untuk tugas pengodean dan visi komputer. Anda juga dapat mempertimbangkan untuk fine tuning API untuk fine tuning model dengan data pelatihan organisasi Anda.

2. Kelola biaya

Biaya penggunaan API LLM dapat meningkat dengan cepat, jadi penting untuk memantau penggunaannya. Sebagian besar penyedia menawarkan dasbor atau alat untuk melacak konsumsi token dan menetapkan batas pengeluaran bulanan guna mengendalikan biaya. Pastikan untuk selalu mengikuti perubahan harga serta algoritme yang mungkin lebih sesuai dengan anggaran dan memberikan nilai lebih.

Beberapa penyedia menawarkan harga yang lebih rendah atau diskon untuk layanan tertentu. API Gemini Google, seperti OpenAI, memiliki titik harga yang lebih murah untuk cache konteks, di mana sekumpulan token input disimpan dalam cache untuk diambil oleh permintaan yang berhasil. Praktik ini sangat membantu ketika konten yang berulang diteruskan ke model—apakah itu instruksi berulang dari chatbot, kueri berulang untuk kumpulan data atau perbaikan bug serupa untuk basis kode.

Sementara itu, OpenAI menawarkan diskon untuk pemrosesan batch melalui API Batch-nya (Anthropic dan Mistral juga menyediakan API serupa). Pemrosesan asinkron ini merupakan opsi hemat biaya untuk mengirimkan sejumlah permintaan ke kumpulan data besar yang tidak memerlukan respons instan, seperti meringkas dokumen panjang atau mengklasifikasikan konten.

Manfaatkan tingkat API LLM gratis. Tingkatan ini gratis tetapi memiliki batasan pada token atau penggunaan. Untuk perusahaan dengan anggaran terbatas, tingkatan API LLM gratis mungkin cocok untuk menguji aplikasi atau membuat prototipe.

3. Jadikan keamanan sebagai prioritas utama

Keamanan API adalah suatu keharusan bagi organisasi mana pun. Berikut adalah beberapa cara untuk mengamankan interaksi API dengan LLM:

  • Terapkan protokol yang aman untuk mengenkripsi informasi yang melewati API LLM, sehingga melindungi data saat transit.
  • Tetapkan kebijakan kontrol akses sehingga hanya pengguna yang berwenang yang dapat mengakses kunci API dan membatasi akses ke API itu sendiri.
  • Hapus informasi sensitif apa pun dari kumpulan data sebelum mengirimnya melalui API LLM.
  • Evaluasi langkah-langkah keamanan dan kebijakan penyedia API LLM yang Anda pilih.

4. Optimalkan, optimalkan, optimalkan

Token mendorong biaya, sehingga meminimalkan jumlah token input dapat membantu menurunkan biaya dan meningkatkan kinerja. Salah satu cara untuk meminimalkan input token adalah melalui pengoptimalan token, yang banyak meminjam dari taktik Rekayasa prompt yang cepat.

Berikut adalah beberapa strategi untuk pengoptimalan token:

  • Buat prompt yang jelas dan ringkas. Gunakan bahasa langsung dan instruksi terfokus.
  • Pecahkan prompt panjang menjadi bagian-bagian yang lebih kecil dan bermakna, jika prompt panjang tidak dapat dihindari.
  • Hapus data yang berlebihan dan detail yang tidak perlu.
  • Berikan contoh-contoh yang singkat dan sangat representatif dalam format yang terstruktur dan konsisten, dalam hal konteks. Hanya sertakan informasi yang penting bagi model untuk memahami tugas.

5. Sempurnakan dan pantau

Setelah Anda menerapkan teknik pengoptimalan yang relevan, terus menyempurnakan prompt Anda berdasarkan hasil model. Pastikan bahwa hasil tersebut untuk memastikannya benar dan akurat.

Amati pola penggunaan Anda untuk melihat apakah pola tersebut sesuai dengan anggaran Anda dan apakah Anda menerapkan model yang paling hemat biaya. Gunakan solusi pemantauan API untuk melacak kinerja API LLM sesuai dengan metrik utama seperti waktu respons, latensi, dan tingkat kesalahan untuk memaksimalkan efektivitas model yang Anda pilih.

API LLM Populer

API LLM adalah pasar yang terus berkembang. Banyak pengembang LLM memiliki API mereka sendiri, sementara penyedia API eksternal lainnya menyediakan akses ke berbagai model bahasa yang besar.

Perusahaan pembandingan independen Artificial Analysis memelihara papan peringkat API LLM yang populer (tautan berada di luar ibm.com) yang membandingkan dan memberi peringkat titik akhir API yang berbeda di seluruh metrik seperti latensi, kecepatan output, kualitas, dan harga.

Berikut adalah beberapa API LLM yang populer:

Antropis

Perusahaan riset AI Anthropic memiliki API (tautan berada di luar ibm.com) untuk keluarga model bahasa besar Claude. Model-model ini termasuk Claude 3.5 Soneta, penawaran premium terbaru dari perusahaan; Claude 3.5 Haiku, model tercepat dan paling hemat biaya; dan Claude 3 Opus, model yang tangguh untuk tugas-tugas yang kompleks. API juga tersedia untuk versi model lama seperti Claude 3 Haiku dan Claude 3 Sonnet.

Ada tiga cara untuk mengakses API (tautan berada di luar ibm.com): Konsol web Anthropic, perpustakaan pengembang di Python dan TypeScript di GitHub, dan pada platform mitra seperti Amazon Bedrock dan Google Cloud Vertex AI.

Cohere

Perusahaan AI Cohere menyediakan API sendiri (tautan berada di luar ibm.com) untuk Command R+, LLM yang dibuat khusus untuk contoh penggunaan perusahaan, dan Command R, model AI generatif yang dioptimalkan untuk Generasi dengan dukungan pengambilan data (RAG) dan fungsionalitas AI agen. Pengembang dapat mengakses API (tautan berada di luar ibm.com) dengan menggunakan alat antarmuka baris perintah Cohere atau melalui pustaka Go, Java, Python, dan TypeScript di GitHub.

Google

Google menawarkan API (tautan berada di luar ibm.com) untuk rangkaian model bahasa besar Gemini. Model-model ini termasuk Gemini 1.5 Flash, model AI multimodal tercepat; Gemini 1.5 Flash-8B, model terkecilnya; Gemini 1.5 Pro, model generasi berikutnya; dan Gemini 1.0 Pro, model generasi pertamanya.

Pengembang dapat mengakses API Gemini (tautan berada di luar ibm.com) di Google AI Studio dan Google Cloud Vertex AI. Pustaka pengembangan perangkat lunak juga tersedia dalam berbagai bahasa pemrograman.

IBM

IBM Granite merupakan seri andalan IBM dari model dasar LLM. Pengembang dapat menggunakan API pada platform IBM watsonx untuk mengakses model Granite 3.0, khususnya Granite 3.0 2B Instruct dan Granite 3.0 8B Instruct, model yangdisesuaikan dengan instruksi dengan 2 dan 8 miliar parameter. Model Granite 3.0 sumber terbuka juga tersedia melalui mitra platform seperti Google Vertex AI dan Hugging Face.

Meta

Llama adalah koleksi model AI sumber terbuka Meta. Model Llama 3, khususnya versi 3.1, dapat diakses melalui API yang disediakan oleh berbagai mitra di ekosistem Meta (tautan berada di luar ibm.com).

Meta juga merilis Tumpukan Llama (tautan berada di luar ibm.com) untuk merampingkan pengembangan dan penerapan aplikasi AI yang dibangun di atas model Llama. Llama tumpukan terdiri atas seperangkat API yang dapat dioperasikan untuk agen, inferensi, memori dan keamanan, antara lain.

Mistral

Mistral AI memiliki titik akhir API yang berbeda (tautan berada di luar ibm.com) untuk model utamanya—seperti Mistral Large, Mistral Small, dan Ministral—dan model gratis, termasuk Mistral NeMo dan Mistral 7B. Perusahaan juga menawarkan API penyempurnaan. Mistral API dapat diakses melalui platform pengembangan La Plateforme sendiri dan platform mitra seperti IBM watsonx dan Microsoft Azure AI.

OpenAI

OpenAI, perusahaan di belakang ChatGPT, menyediakan API untuk beberapa modelnya (tautan berada di luar ibm.com). API ini mencakup model generative pretrained transformer (GPT) terbaru GPT-4o dan GPT-4o mini, dan model OpenAI GPT yang lebih lama seperti GPT-4 Turbo dan GPT-3.5 Turbo.

Model pembuatan teks OpenAI menggunakan titik akhir API penyelesaian obrolan. Selain itu, terdapat API lain seperti API Gambar untuk model gambar, API Audio untuk model text to speech, dan API Realtime untuk aplikasi dengan latensi rendah. Pengembang dapat mengakses API OpenAI melalui platform OpenAI serta pustaka pengembangan perangkat lunak yang tersedia dalam berbagai bahasa pemrograman.

API LLM memiliki peran penting dalam pipeline AI. Dengan menggabungkan kekuatan penalaran LLM dan kemudahan penggunaan antarmuka yang dapat diprogram, API LLM menjembatani celah antara model bahasa besar dan aplikasi perusahaan. Memahami cara kerja API LLM serta penggunaannya secara efisien dapat membantu bisnis mengintegrasikan AI ke dalam sistem mereka dengan lebih efektif.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Solusi terkait
Model dasar

Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.

Jelajahi solusi AI
Konsultasi dan layanan AI

Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

Jelajahi watsonx.ai Jelajahi solusi AI