タグ

LLM API：ギャップを埋めるためのヒント

共同執筆者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

知らない言語の国を訪れるときは、会話を翻訳してくれる友人や、道を尋ねるときに翻訳アプリに頼るかもしれません。そうすれば、特に短い旅行であれば、言語全体を学ぶ必要はありません。

大規模言語モデル（LLM）の領域では、アプリケーション・プログラミング・インターフェース（API）が翻訳者として機能し、LLMと人工知能（AI）アプリケーション間のシームレスな交換を可能にします。これらのインターフェースにより、自然言語処理（NLP）機能と自然言語理解機能をソフトウェア・システムに統合しやすくなります。

LLM APIを通じて、企業はAIモデルをワークフローで活用できます。例えば、オンライン小売業者は、顧客サービスのチャットボットを言語モデルに接続して、よりカスタマイズされた応答を実現し、自然で魅力的なやり取りを促進できます。同様に、企業はAIコーディング・アシスタントをLLMにリンクして、より堅牢なコード分析と生成を実現できます。

LLM APIの仕組み

LLM APIは通常、一連の手順に従う要求応答アーキテクチャーに基づいて動作しています。

アプリケーションは、通常、ハイパーテキスト転送プロトコル（HTTP）リクエストの形式でリクエストをAPIに送信します。送信前に、アプリケーションはまずリクエストをAPIの必須データ形式（通常はJavaScript Object Notation、通称JSON）に変換します。このデータ形式には、モデル・バリアント、実際のプロンプト、その他のパラメーターなどの情報が含まれます。
APIはリクエストを受信すると、処理のためにLLMに転送します。
機械学習モデルは、コンテンツ生成、質問応答、感情分析、テキスト生成、テキスト要約などのNLPスキルを利用して、APIに中継する応答を生成します。
APIはこの応答をアプリケーションに返します。

LLM APIにアクセスするには、ユーザーは選択したプロバイダーにサインアップし、認証用のAPIキーを生成する必要があります。

トークンと料金体系

料金体系はLLM APIの重要なコンポーネントです。プロバイダーは、モデルに基づいてさまざまな価格ポイントを設定しています。

LLM APIの価格設定の仕組みを理解するには、まずトークンの概念を理解する必要があります。言語モデルの場合、トークンは機械が読み取り可能な単語の表現です。トークンは、文字、句読点、単語の一部、または単語全体になります。

トークンは、モデルが入力として取り込み、処理し、出力として生成できるテキストの最小単位です。トークンは価格設定の基準となります。ほとんどのプロバイダーは従量課金制の価格設定モデルを使用しており、入力トークンと出力トークンには別々の価格設定で、LLM APIアクセスに対して1,000トークンまたは100万トークンごとに課金します。

このトークンベースの価格設定は、LLMの実行に関連する計算および処理コストを反映しています。また、透明性と柔軟性も確保され、企業間のさまざまな使用パターンに対応できます。

LLM APIのメリットと課題

企業のデータやサービスを、LLM APIがもたらすAI層と組み合わせると、より強力な現実世界のアプリケーションが実現します。LLM APIが提供できるメリットをいくつかご紹介します。

アクセシビリティー：企業は、AIに関する包括的な知識や専門知識を必要とせずに、AI言語機能を活用できます。また、独自のモデルの開発や関連するインフラストラクチャーに投資する必要もありません。
カスタマイズ：LLM APIを通じて、組織は特定のタスクや分野に合わせて大規模な言語モデルをファイン・チューニングできます。
定期的な更新：プロバイダーは、パフォーマンスを向上させ、AIの急速な変化に対応するために、アルゴリズムを定期的に更新する必要があります。
拡張性：LLM APIは通常、大量のリクエストを同時に処理でき、ビジネスの成長に合わせて拡張できます。

こうしたメリットの一方で、LLM APIには課題もあります。

コスト：これらのインターフェースは、特に大量または大規模に使用する場合、高価になる可能性があります。企業はLLM APIの価値を最大化するために、コストを効果的に管理する必要があります。
セキュリティーの脆弱性：悪意のある人物がAPIエンドポイントを悪意のある目的で使用して、機密データを抽出したり、マルウェアをインストールしたり、大量のリクエストを送信して分散型サービス拒否（DDoS）攻撃を実行したりする可能性があります。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

LLM APIを効率的に使用するためのヒント

LLM APIは、企業がAIを通じてアプリケーションの潜在能力を最大限に引き出す可能性を広げます。ここでは、企業がLLM APIをより効率的に使用するための5つの手法を紹介します。

1. ユースケースを検討する

ユースケースに最適な言語モデルを選択してください。基本的な機能から始めて、徐々に高度な機能まで進んでいきましょう。

例えば、感情分析だけが必要な場合は、より小型で、よりコスト効率の高い古いモデルで十分です。ただし、カスタマー・サービス・チャットボットや翻訳アプリケーションなど、迅速かつリアルタイムの応答が必要な場合は、より大型で新しいモデルを選択する場合があります。より複雑なタスクには、最新で最も強力なモデル・バリアントが必要になる場合があります。

プロバイダーによっては、特定のユースケースに合わせてカスタマイズされたAPIやモデルも提供しています。OpenAIのAssistants APIはAIアシスタントの構築を対象としており、Mistralにはコーディングとコンピューター・ビジョン・タスク用のAPIがあります。また、組織のトレーニング・データを使用してモデルを微調整するために、APIをファイン・チューニングすることも検討できます。

2. コストを管理する

LLM APIの使用コストはすぐに膨らむ可能性があるため、使用量に注意してください。ほとんどのプロバイダーには、トークンの使用状況を監視し、コストを管理するための月間支出限度額を設定するダッシュボードまたはツールがあります。予算に合わせてより多くの価値を提供できる価格設定とアルゴリズムの変更について最新情報を入手してください。

一部のプロバイダーは、特定のサービスに対して低価格または割引を提供しています。OpenAIと同様に、GoogleのGemini APIはコンテキスト・キャッシュの料金が安く、一連の入力トークンがキャッシュに保存され、後続のリクエストで取得されます。この方法は、チャットボットからの定期的な指示、データセットの繰り返しクエリー、コードベースの同様のバグ修正など、繰り返しのコンテンツがモデルに渡される場合に役立ちます。

一方、OpenAIはバッチAPIを通じてバッチ処理の割引を提供しています（AnthropicとMistralにも同様のAPIがあります）。この非同期処理は、長いドキュメントの要約やコンテンツの分類など、即時の応答を必要としない大規模なデータセットに対するリクエストのグループを送信する場合のコスト効率の高いオプションになります。

無料の LLM API層を活用しましょう。これらの層は無料ですが、トークンや使用量に制限があります。予算が限られている企業の場合、無料のLLM API層はアプリのテストやプロトタイプの構築に適しているかもしれません。

3. セキュリティーを最優先に考える

APIセキュリティーはあらゆる組織にとって必須です。LLMとのAPIインタラクションを保護する方法をいくつか紹介します。

LLM APIを通過する情報を暗号化する安全なプロトコルを実装することで、転送中のデータを保護します。
許可されたユーザーのみがAPIキーにアクセスできるようにし、API自体へのアクセスを制限するアクセス制御ポリシーを確立します。
データセットをLLM API経由で送信する前に、データセットから機密情報を削除します。
選択したLLM APIプロバイダーのセキュリティー対策とポリシーを評価します。

4. 最適化を最重要視する

トークンはコストを押し上げるため、入力トークン数を最小限に抑えると、コストを削減し、パフォーマンスを向上させることができます。入力トークンを最小限に抑える方法の1つは、トークンの最適化です。これは、プロンプト・エンジニアリング戦術から大きく影響を受けています。

トークンの最適化のためのいくつかの戦略を以下に示します:

明快で簡潔なプロンプトを作成します。直接的な言葉と焦点を絞った指示を使用します。
長いプロンプトを避けることができない場合は、長いプロンプトを小さく意味のある部分に分割します。
冗長なデータと不要な詳細を削除します。
コンテキストの観点から、構造化された一貫した形式で、短くて代表的な例を提供します。モデルがタスクを理解するために重要な情報のみを含めます。

5. 改善と監視を行う

関連する最適化手法を適用した後、モデルの出力に基づいてプロンプトを継続的に改良します。出力が正確で正確であることを確認します。

使用パターンを観察して、それが予算に合っているかどうか、また最もコスト効率の高いモデルを実装しているかどうかを確認します。APIモニタリング・ソリューションを使用して、応答時間、待ち時間、エラー率などの主要な指標に従ってLLM APIのパフォーマンスを追跡し、選択したモデルの有効性を最大限に高めます。

一般的なLLM API

LLM APIは成長市場です。多くのLLM開発者は独自のAPIを持っていますが、他の外部APIプロバイダーはさまざまな大規模言語モデルへのアクセスを提供しています。

独立系ベンチマーク会社であるArtificial Analysis社は、レイテンシー、出力速度、品質、価格などの指標に基づいてさまざまなAPIエンドポイントを比較し、ランク付けする、人気の高いLLM APIリーダーボード（ibm.com外部へのリンク）を運営しています。

一般的なLLM APIを以下に示します。

Anthropic社

AI研究会社Anthropic社は、大規模言語モデルの Claudeファミリー用のAPIを提供しています（ibm.com外部へのリンク）。これらのモデルには、同社の最新のプレミアム製品であるClaude 3.5 Sonnet、最速かつ最もコスト効率の高いモデルであるClaude 3.5 Haiku、複雑なタスク向けの強力なモデルであるClaude 3 Opus などがあります。Claude 3 HaikuやClaude 3 Sonnetなどの古いモデル・バージョン用のAPIも利用できます。

APIにアクセス（ibm.com外部へのリンク）するには、Anthropic社のWebコンソール、GitHub上のPythonおよびTypeScriptの開発者ライブラリー、Amazon BedrockやGoogle Cloud Vertex AIなどのパートナー・プラットフォームを介する3つの方法があります。

Cohere社

AI企業のCohere社（ibm.com外部へのリンク）は、エンタープライズ・ユースケース向けに特別に構築されたLLMであるCommand R+と、検索拡張生成（RAG）およびエージェントAI機能向けに最適化された生成AIモデルであるCommand R向けに、独自のAPIを提供しています。開発者は、Cohereのコマンドライン・インターフェース・ツールを使用するか、GitHub上のGo、Java、Python、TypeScriptライブラリーを通じて、APIにアクセス（ibm.com外部へのリンク）できます。

Google

Google社（ibm.com外部へのリンク）は、大規模言語モデルの Geminiスイート用のAPIを提供しています。これらのモデルには、最速のマルチモーダルAIモデルであるGemini 1.5 Flash、最小のモデルであるGemini 1.5 Flash-8B、次世代モデルであるGemini 1.5 Pro、第1世代モデルであるGemini 1.0 Proが含まれます。

開発者は、Google AIStudioおよびGoogle Cloud Vertex AIで Gemini APIにアクセス（ibm.com外部へのリンク）できます。ソフトウェア開発ライブラリーも、さまざまなプログラミング言語で利用できます。

IBM

IBM® Graniteは、IBMのLLM基盤モデルの主力シリーズです。開発者は、IBM watsonxプラットフォームのAPIを使用して、Granite 3.0モデル、具体的にはGranite 3.0 2B InstructとGranite 3.0 8B Instruct、20億と80億のパラメーターを持つ命令調整済みモデルにアクセスできます。Granite 3.0オープンソース・モデルは、Google Vertex AIや Hugging Faceなどのプラットフォーム・パートナーを通じてもアクセスできます。

メタ

Llamaは、Meta社のオープンソースAIモデルのコレクションです。Llama 3モデル、特に3.1バージョンは、Meta社のさまざまなエコシステム・パートナーのAPIを通じてアクセスできます（ibm.com外部へのリンク）。

Meta社は、Llamaモデル上に構築されたAIアプリの開発とデプロイメントを効率化するために、Llama Stack（ibm.com外部へのリンク）もリリースしました。Llama Stackは、エージェント、推論、メモリー、安全性などのための相互運用可能なAPIのセットで構成されています。

Mistral社

Mistral AI社は、有料モデル（Mistral Large、Mistral Small、Ministralなど）と無料モデル（Mistral NeMo、Mistral 7B など）向けにさまざまなAPIエンドポイント（ibm.com外部へのリンク）、そしてファイン・チューニング用APIを提供しています。Mistral APIには、独自のLa Plateforme開発プラットフォームと、IBM watsonxやMicrosoft Azure AIなどのパートナー・プラットフォームを通じてアクセスできます。

OpenAI

ChatGPTの開発元であるOpenAI社は、複数のモデル用のAPIを提供しています（ibm.com外部へのリンク）。これらのAPIには、最新のGenerative Pre-trained Transformer（GPT）モデル GPT-4oとGPT-4o mini、およびGPT-4 TurboやGPT-3.5 Turboなどの古いOpenAIGPTモデルが含まれています。

OpenAIのテキスト生成モデルはチャット補完APIエンドポイントを採用していますが、他のAPIにはOpenAIの画像モデル用のImages API、テキスト読み上げモデル用のAudio API、低遅延アプリケーション用のRealtime APIなどがあります。開発者は、OpenAIプラットフォームおよびさまざまなプログラミング言語のソフトウェア開発ライブラリーを通じてOpenAI APIにアクセスできます。

LLM APIはAIパイプラインで重要な役割を果たします。LLMの推論能力とプログラムされたインターフェースの使いやすさを組み合わせることで、LLM APIは大規模な言語モデルとエンタープライズ・アプリケーションの間のギャップを埋めます。LLM APIの内部の仕組みと効率的な使用方法を理解することで、企業はAIをシステムにうまく組み込むことができます。

AI Academy