知らない言語の国を訪れるときは、会話を翻訳してくれる友人や、道を尋ねるときに翻訳アプリに頼るかもしれません。そうすれば、特に短い旅行であれば、言語全体を学ぶ必要はありません。
大規模言語モデル(LLM)の領域では、アプリケーション・プログラミング・インターフェース(API)が翻訳者として機能し、LLMと人工知能(AI)アプリケーション間のシームレスな交換を可能にします。これらのインターフェースにより、自然言語処理(NLP)機能と自然言語理解機能をソフトウェア・システムに統合しやすくなります。
LLM APIを通じて、企業はAIモデルをワークフローで活用できます。例えば、オンライン小売業者は、顧客サービスのチャットボットを言語モデルに接続して、よりカスタマイズされた応答を実現し、自然で魅力的なやり取りを促進できます。同様に、企業はAIコーディング・アシスタントをLLMにリンクして、より堅牢なコード分析と生成を実現できます。
LLM APIは通常、一連の手順に従う要求応答アーキテクチャーに基づいて動作しています。
アプリケーションは、通常、ハイパーテキスト転送プロトコル(HTTP)リクエストの形式でリクエストをAPIに送信します。送信前に、アプリケーションはまずリクエストをAPIの必須データ形式(通常はJavaScript Object Notation、通称JSON)に変換します。このデータ形式には、モデル・バリアント、実際のプロンプト、その他のパラメーターなどの情報が含まれます。
APIはリクエストを受信すると、処理のためにLLMに転送します。
機械学習モデルは、コンテンツ生成、質問応答、感情分析、テキスト生成、テキスト要約などのNLPスキルを利用して、APIに中継する応答を生成します。
APIはこの応答をアプリケーションに返します。
LLM APIにアクセスするには、ユーザーは選択したプロバイダーにサインアップし、認証用のAPIキーを生成する必要があります。
料金体系はLLM APIの重要なコンポーネントです。プロバイダーは、モデルに基づいてさまざまな価格ポイントを設定しています。
LLM APIの価格設定の仕組みを理解するには、まずトークンの概念を理解する必要があります。言語モデルの場合、トークンは機械が読み取り可能な単語の表現です。トークンは、文字、句読点、単語の一部、または単語全体になります。
トークンは、モデルが入力として取り込み、処理し、出力として生成できるテキストの最小単位です。トークンは価格設定の基準となります。ほとんどのプロバイダーは従量課金制の価格設定モデルを使用しており、入力トークンと出力トークンには別々の価格設定で、LLM APIアクセスに対して1,000トークンまたは100万トークンごとに課金します。
このトークンベースの価格設定は、LLMの実行に関連する計算および処理コストを反映しています。また、透明性と柔軟性も確保され、企業間のさまざまな使用パターンに対応できます。
企業のデータやサービスを、LLM APIがもたらすAI層と組み合わせると、より強力な現実世界のアプリケーションが実現します。LLM APIが提供できるメリットをいくつかご紹介します。
こうしたメリットの一方で、LLM APIには課題もあります。
LLM APIは、企業がAIを通じてアプリケーションの潜在能力を最大限に引き出す可能性を広げます。ここでは、企業がLLM APIをより効率的に使用するための5つの手法を紹介します。
ユースケースに最適な言語モデルを選択してください。基本的な機能から始めて、徐々に高度な機能まで進んでいきましょう。
例えば、感情分析だけが必要な場合は、より小型で、よりコスト効率の高い古いモデルで十分です。ただし、カスタマー・サービス・チャットボットや翻訳アプリケーションなど、迅速かつリアルタイムの応答が必要な場合は、より大型で新しいモデルを選択する場合があります。より複雑なタスクには、最新で最も強力なモデル・バリアントが必要になる場合があります。
プロバイダーによっては、特定のユースケースに合わせてカスタマイズされたAPIやモデルも提供しています。OpenAIのAssistants APIはAIアシスタントの構築を対象としており、Mistralにはコーディングとコンピューター・ビジョン・タスク用のAPIがあります。また、組織のトレーニング・データを使用してモデルを微調整するために、APIをファイン・チューニングすることも検討できます。
LLM APIの使用コストはすぐに膨らむ可能性があるため、使用量に注意してください。ほとんどのプロバイダーには、トークンの使用状況を監視し、コストを管理するための月間支出限度額を設定するダッシュボードまたはツールがあります。予算に合わせてより多くの価値を提供できる価格設定とアルゴリズムの変更について最新情報を入手してください。
一部のプロバイダーは、特定のサービスに対して低価格または割引を提供しています。OpenAIと同様に、GoogleのGemini APIはコンテキスト・キャッシュの料金が安く、一連の入力トークンがキャッシュに保存され、後続のリクエストで取得されます。この方法は、チャットボットからの定期的な指示、データセットの繰り返しクエリー、コードベースの同様のバグ修正など、繰り返しのコンテンツがモデルに渡される場合に役立ちます。
一方、OpenAIはバッチAPIを通じてバッチ処理の割引を提供しています(AnthropicとMistralにも同様のAPIがあります)。この非同期処理は、長いドキュメントの要約やコンテンツの分類など、即時の応答を必要としない大規模なデータセットに対するリクエストのグループを送信する場合のコスト効率の高いオプションになります。
無料の LLM API層を活用しましょう。これらの層は無料ですが、トークンや使用量に制限があります。予算が限られている企業の場合、無料のLLM API層はアプリのテストやプロトタイプの構築に適しているかもしれません。
APIセキュリティーはあらゆる組織にとって必須です。LLMとのAPIインタラクションを保護する方法をいくつか紹介します。
トークンはコストを押し上げるため、入力トークン数を最小限に抑えると、コストを削減し、パフォーマンスを向上させることができます。入力トークンを最小限に抑える方法の1つは、トークンの最適化です。これは、プロンプト・エンジニアリング戦術から大きく影響を受けています。
トークンの最適化のためのいくつかの戦略を以下に示します:
関連する最適化手法を適用した後、モデルの出力に基づいてプロンプトを継続的に改良します。出力が正確で正確であることを確認します。
使用パターンを観察して、それが予算に合っているかどうか、また最もコスト効率の高いモデルを実装しているかどうかを確認します。APIモニタリング・ソリューションを使用して、応答時間、待ち時間、エラー率などの主要な指標に従ってLLM APIのパフォーマンスを追跡し、選択したモデルの有効性を最大限に高めます。
LLM APIは成長市場です。多くのLLM開発者は独自のAPIを持っていますが、他の外部APIプロバイダーはさまざまな大規模言語モデルへのアクセスを提供しています。
独立系ベンチマーク会社であるArtificial Analysis社は、レイテンシー、出力速度、品質、価格などの指標に基づいてさまざまなAPIエンドポイントを比較し、ランク付けする、人気の高いLLM APIリーダーボード(ibm.com外部へのリンク)を運営しています。
一般的なLLM APIを以下に示します。
AI研究会社Anthropic社は、大規模言語モデルのClaudeファミリー用のAPIを提供しています(ibm.com外部へのリンク)。これらのモデルには、同社の最新のプレミアム製品であるClaude 3.5 Sonnet、最速かつ最もコスト効率の高いモデルであるClaude 3.5 Haiku、複雑なタスク向けの強力なモデルであるClaude 3 Opus などがあります。Claude 3 HaikuやClaude 3 Sonnetなどの古いモデル・バージョン用のAPIも利用できます。
APIにアクセス(ibm.com外部へのリンク)するには、Anthropic社のWebコンソール、GitHub上のPythonおよびTypeScriptの開発者ライブラリー、Amazon BedrockやGoogle Cloud Vertex AIなどのパートナー・プラットフォームを介する3つの方法があります。
AI企業のCohere社(ibm.com外部へのリンク)は、エンタープライズ・ユースケース向けに特別に構築されたLLMであるCommand R+と、検索拡張生成(RAG)およびエージェントAI機能向けに最適化された生成AIモデルであるCommand R向けに、独自のAPIを提供しています。開発者は、Cohereのコマンドライン・インターフェース・ツールを使用するか、GitHub上のGo、Java、Python、TypeScriptライブラリーを通じて、APIにアクセス(ibm.com外部へのリンク)できます。
Google社(ibm.com外部へのリンク)は、大規模言語モデルのGeminiスイート用のAPIを提供しています。これらのモデルには、最速のマルチモーダルAIモデルであるGemini 1.5 Flash、最小のモデルであるGemini 1.5 Flash-8B、次世代モデルであるGemini 1.5 Pro、第1世代モデルであるGemini 1.0 Proが含まれます。
開発者は、Google AIStudioおよびGoogle Cloud Vertex AIで Gemini APIにアクセス(ibm.com外部へのリンク)できます。ソフトウェア開発ライブラリーも、さまざまなプログラミング言語で利用できます。
IBM® Graniteは、IBMのLLM基盤モデルの主力シリーズです。開発者は、IBM watsonxプラットフォームのAPIを使用して、Granite 3.0モデル、具体的にはGranite 3.0 2B InstructとGranite 3.0 8B Instruct、20億と80億のパラメーターを持つ命令調整済みモデルにアクセスできます。Granite 3.0オープンソース・モデルは、Google Vertex AIや Hugging Faceなどのプラットフォーム・パートナーを通じてもアクセスできます。
Llamaは、Meta社のオープンソースAIモデルのコレクションです。Llama 3モデル、特に3.1バージョンは、Meta社のさまざまなエコシステム・パートナーのAPIを通じてアクセスできます(ibm.com外部へのリンク)。
Meta社は、Llamaモデル上に構築されたAIアプリの開発とデプロイメントを効率化するために、Llama Stack(ibm.com外部へのリンク)もリリースしました。Llama Stackは、エージェント、推論、メモリー、安全性などのための相互運用可能なAPIのセットで構成されています。
Mistral AI社は、有料モデル(Mistral Large、Mistral Small、Ministralなど)と無料モデル(Mistral NeMo、Mistral 7B など)向けにさまざまなAPIエンドポイント(ibm.com外部へのリンク)、そしてファイン・チューニング用APIを提供しています。Mistral APIには、独自のLa Plateforme開発プラットフォームと、IBM watsonxやMicrosoft Azure AIなどのパートナー・プラットフォームを通じてアクセスできます。
ChatGPTの開発元であるOpenAI社は、複数のモデル用のAPIを提供しています(ibm.com外部へのリンク)。これらのAPIには、最新のGenerative Pre-trained Transformer(GPT)モデル GPT-4oとGPT-4o mini、およびGPT-4 TurboやGPT-3.5 Turboなどの古いOpenAIGPTモデルが含まれています。
OpenAIのテキスト生成モデルはチャット補完APIエンドポイントを採用していますが、他のAPIにはOpenAIの画像モデル用のImages API、テキスト読み上げモデル用のAudio API、低遅延アプリケーション用のRealtime APIなどがあります。開発者は、OpenAIプラットフォームおよびさまざまなプログラミング言語のソフトウェア開発ライブラリーを通じてOpenAI APIにアクセスできます。
LLM APIはAIパイプラインで重要な役割を果たします。LLMの推論能力とプログラムされたインターフェースの使いやすさを組み合わせることで、LLM APIは大規模な言語モデルとエンタープライズ・アプリケーションの間のギャップを埋めます。LLM APIの内部の仕組みと効率的な使用方法を理解することで、企業はAIをシステムにうまく組み込むことができます。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。