タグ

オープンソースの大規模言語モデル：メリット、リスク、種類

大規模言語モデル（LLM）は、人工知能（AI）、ディープラーニング、それにWebサイト、記事、書籍などの大規模データセットを使用して、テキストを生成し、言語間で翻訳し、さまざまな種類のコンテンツを作成する基盤モデルです。これらの生成AIモデルには、独自の大規模言語モデルとオープンソースの大規模言語モデルの2種類があります。

この動画では、Martin Keenが、大規模言語モデルの基本、大規模言語モデルと基盤モデルとの関係性、動作原理、さまざまなビジネス上の問題に対処するための使用方法について、簡単に説明します。

独自のLLMは企業が所有しており、ライセンスを購入した顧客のみが使用できます。ライセンスにより、LLMの使用方法が制限される場合があります。一方、オープンソースLLMは無料で、あらゆる目的のあらゆるユーザーがアクセスでき、変更や配布も可能です。

「オープンソース」という用語は、LLMコードと基盤となるアーキテクチャーが一般に公開されていることを指し、開発者や研究者がモデルを自由に使用、改善、その他の変更を加えられることを意味します。

オープンソースLLMのメリットとは

以前は、LLMが大規模であればあるほど良いとされていましたが、今では企業は、研究とイノベーションの点で法外なコストがかかる可能性があることを認識しています。これに応えて、オープンソース・モデル・エコシステムが将来性を示し、LLMのビジネス・モデルに挑み始めました。

透明性と柔軟性

社内に機械学習に精通した人材がいない企業でも、クラウドかオンプレミスかを問わず、自社のインフラ内で透明性と柔軟性を提供するオープンソースLLMを利用できます。これにより、データを完全に制御できるようになり、機密情報がネットワーク内にとどまることになります。こうしたすべての機能により、データ漏洩や不正アクセスのリスクが軽減されます。

オープンソースLLMは、LLMの仕組み、アーキテクチャー、トレーニング・データと方法論、ユースケースに関する透明性を提供します。コードを検査し、アルゴリズムを可視化することで、企業の信頼性が高まり、監査に役立ち、倫理的・法的コンプライアンスを確保できます。さらに、オープンソースLLMを効率的に最適化することで、レイテンシーを短縮し、性能を向上させることができます。

コストの削減：

ライセンス料が不要であるため、一般に、長期的には独自のLLMよりもはるかに低コストになります。ただし、LLMの運用コストには、クラウドまたはオンプレミスのインフラストラクチャー・コストが含まれ、通常は多額の初期導入コストがかかります。

主要な機能の追加とコミュニティーの助力

事前にトレーニングされたオープンソースLLMでは、ファイン・チューニングが可能です。企業は、特定の用途にメリットをもたらす主要な機能をLLMに追加できるほか、LLMを特定のデータセットでトレーニングすることもできます。独自のLLMに対してこうした変更や仕様を加えるには、ベンダーとの協力が必要となり、時間と費用がかかります。

独自のLLMでは、企業は単一のプロバイダーに依存する必要がありますが、オープンソースでは、企業はコミュニティーの助力、複数のサービス・プロバイダー、場合によっては社内チームを利用して、更新、開発、保守、サポートに対応することができます。オープンソースの場合、企業はさまざまな視点を持つ人々からの助力を得て、利用することができます。これにより、企業が最先端のテクノロジーを維持できるソリューションが実現します。また、オープンソースLLMを使用する企業は、テクノロジーとその使用方法に関する意思決定をより詳細に制御できるようになります。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

オープンソースLLMモデルで遂行できるプロジェクト

組織は、オープンソースのLLMモデルを使用して従業員に役立つ事実上あらゆるプロジェクトを作成することができるほか、オープンソース・ライセンスの許可があれば、商用製品として提供することもできます。それには、以下が含まれます。

テキスト生成

オープンソースLLMモデルを使用すると、Eメール、ブログ記事、クリエイティブなストーリーの作成など、言語生成機能を備えたアプリを作成できます。Apache 2.0ライセンスの下で提供されているFalcon-40BのようなLLMは、プロンプトに応答して高品質のテキスト提案を生成でき、そのテキストにユーザーが変更を加えて洗練させることができます。

コードの生成

既存のコードとプログラミング言語でトレーニングされたオープンソースLLMは、開発者がアプリケーションを構築し、エラーやセキュリティー関連の障害を発見するのに役立ちます。

バーチャル個別指導

オープンソースLLMを使用すると、特定の学習スタイルに合わせてカスタマイズしたりファイン・チューニングしたりできる、パーソナライズされた学習体験を提供するアプリケーションを作成できます。

コンテンツの要約

長文記事、ニュース記事、研究レポートなどを要約するオープンソースLLMツールを使用すると、主要なデータを簡単に抽出できます。

AI駆動型チャットボット

これらは、質問を理解して回答し、提案し、自然言語で会話を行うことができます。

言語翻訳

多言語データセットでトレーニングするオープンソースLLMは、多くの言語で正確で流暢な翻訳を提供できます。

センチメント分析

LLMはテキストを分析して、感情やセンチメントのトーンを判断できるため、ブランドの評判管理や顧客フィードバックの分析に役立ちます。

コンテンツのフィルタリングとモデレーション

LLMは、不適切または有害なオンライン・コンテンツを特定して除外するのに有用なため、より安全なオンライン環境を維持する上で大きく役立ちます。

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

エピソードに移動

オープンソースLLMを使用する組織の種類

さまざまな種類の組織がオープンソースLLMを使用しています。例えば、IBMとNASAは、科学者とその組織が気候変動に立ち向かうのを支援するために、地理空間データに基づいてトレーニングされたオープンソースLLMを開発しました。

出版社とジャーナリストは、ニュースルームの外部に独自のデータを共有することなく、オープンソースLLMを社内で使用して情報を分析、識別、要約します。

一部の医療機関は、診断ツール、治療の最適化、患者情報や公衆衛生などを扱うツールを含むヘルスケア・ソフトウェアにオープンソースLLMを使用します。

オープンソースLLMのFinGPTは、金融業界向けに特別に開発されました。

キュレーションされた最高のオープンソースLLMを一部紹介

オープンLLMリーダーボードは、さまざまなベンチマークに基づいてオープンソースのLLMとチャットボットを追跡、ランク付け、評価することを目的としています。

商用利用の契約が可能なライセンスを持つ、高性能オープンソースLLMの1つに、Meta AIのLLaMa 2があります。これは、70億から700億のパラメーターを持つ、事前トレーニング済みでファイン・チューニングされた生成テキスト・モデルを網羅しており、Watsonx.aiスタジオで利用できます。また、Hugging FaceエコシステムやTransformerライブラリーからも利用できます。
VicunaとAlpacaはLLaMaモデル上に作成されたもので、GoogleのBardやOpenAIのChatGPTのように指示に従うようにファイン・チューニングされています。VicunaはAlpacaを上回る性能で、GPT-4に匹敵する性能を有しています。
BigScienceにより開発されたBloom（ibm.com外部へのリンク）は、1,000人を超えるAI研究者によって作成された多言語モデルです。これは、完全な透明性のもとでトレーニングされた最初の多言語LLMです。
Technology Innovation Institute（TII）のFalcon LLM（ibm.com外部へのリンク）は、チャットボットと併用してクリエイティブなテキストを生成し、複雑な問題を解決し、反復的なタスクを削減して自動化できます。Falcon 6Bと40Bはいずれも、ファイン・チューニング用の生モデルとして、またはそのまま使用できる命令チューニング済みモデルとして利用できます。FalconはGPT-3のトレーニング・コンピュート予算の約75％のみを使用しており、性能はGPT-3を大幅に上回っています。
MPT-7BおよびMPT-30B（ibm.com外部へのリンク）は、MosaicML（最近Databricksが買収）から商用利用のライセンスを付与されたオープンソースLLMです。MPT-7BはLlaMAの性能と一致します。MPT-30BはGPT-3を上回る性能です。どちらも1Tトークンでトレーニングされています。
Google AIによって開発されたFLAN-T5は、1,800以上の多様なタスクを処理できます。
Hugging FaceのStarCoder（ibm.com外部へのリンク）は、GitHubの許容コードでトレーニングされたオープンソースLLMのコーディング・アシスタントです。
RedPajama-INCITE（ibm.com外部へのリンク）は、Apache-2ライセンスに基づいた、69億パラメーターの事前トレーニング済み言語モデルであり、Togetherや、モントリオール大学、スタンフォード大学基盤モデル研究センターなどのさまざまな機関のリーダーによって開発されました。
CerebrasのCerebras-GPT（ibm.com外部へのリンク）は、1億1,100万から130億のパラメーターに及ぶ7つのGPTモデル・ファミリーです。
StableLMは、AI画像ジェネレーターであるStable Diffusionを開発したStable AIのオープンソースLLMです。「The Pile」と呼ばれる1.5兆トークンを含むデータセットでトレーニングを行い、Alpaca、GPT4All（GPT-J、MPT、LlaMaに基づくさまざまなモデルを提供）、Dolly、ShareGPT、HHのオープンソース・データセットの組み合わせでファイン・チューニングされています。

大規模言語モデルに伴うリスク

LLMの出力は流暢で説得力のあるものに聞こえますが、バイアス、同意、セキュリティーの問題だけでなく、「ハルシネーション」に基づいた情報の提供などのリスクが存在する可能性があります。これらのリスクについて教育することは、データとAIのこれらの問題に対する答えの1つです。

ハルシネーション（虚偽）は、LLMが不完全なデータ、矛盾したデータ、または不正確なデータでトレーニングされたり、意味を理解せずに文脈に基づいて次の正確な単語を予測したりすることで生じることがあります。
バイアスは、データのソースが多様または代表的ではない場合に発生します。
同意とは、トレーニング・データが説明責任をもって収集されたかどうかを指し、法律や規制に準拠し、ユーザーがフィードバックを取り入れる方法を提供するAIガバナンス・プロセスに従っていることを意味します。
セキュリティー上の問題としては、PIIの漏洩、サイバー犯罪者がフィッシングやスパムなどの悪意のあるタスクにLLMを悪用すること、ハッカーがオリジナル・プログラミングを変更することなどが含まれます。

オープンソースの大規模言語モデルとIBM

AIモデル、特にLLMは、今後10年間で最も変革をもたらすテクノロジーの1つになるでしょう。新しいAI規制によりAIの使用に関するガイドラインが課せられるようになるため、AIモデルの統制や管理だけでなく、AIに入力されるデータの統制も同様に重要になります。

組織がこれらのニーズに対応し、AIの影響を増大できるようにするために、IBMはエンタープライズ対応のAIおよびデータ・プラットフォームであるwatsonxを提供しています。watsonxは、組織に次の機能を提供します。

watsonx.aiでビジネス全体でAIをトレーニング、チューニング、デプロイ
watsonx.dataの活用で、あらゆるデータを対象に、あらゆる場所でAIワークロードを拡張
watsonx.governanceで、責任と透明性のある、説明可能なデータとAIワークフローを実現します。

IBM watsonx Assistantの会話型検索機能は、事前に構築された統合、ローコード統合フレームワーク（ibm.com外部へのリンク）、およびノーコード・オーサリング・エクスペリエンスを基盤として構築されています。開発者もビジネス・ユーザーも、会話型検索を使用して質問への回答を自動化できるため、バーチャル・アシスタントを使用して、より価値の高いトランザクション・フローと統合されたデジタル・エクスペリエンスを構築できるようになります。

watsonx Assistantは、対話型検索だけでなく、IBM Researchとwatsonxと連携し、分類、推論、情報抽出、要約、その他の会話型ユースケースに特化したカスタマイズされたwatsonx LLMを開発し続けています。Watsonx Assistantは、大規模言語モデルを使用して、少ない労力で顧客を理解する能力においてすでに大きな進歩を達成しています。

著者

IBM Data and AI Team