オープンソースの大規模言語モデル (LLM) は、誰でも簡単に変更して使用できるため、多くの人に愛されています。しかし、モデルをトレーニングし調整するために必要なデータを準備するのに費用と時間がかかる場合、オープンソースのメリットは失われます。
「AIにおけるすべての対話はモデルから始まり、実際にはデータで終わります」と、IBM Researchの生成AIデータ・エンジニアリング担当主任リサーチ・サイエンティストであるPetros Zerfos氏は述べています。企業にとっては多くの場合、AIチームが実際にはモデル自体よりもモデル用のデータの準備に多くの時間を費やすことになる、とZerfos氏は言います。
そこで次のような解決策を実行しました。一部の大手テクノロジー企業は、データ準備ツールをオープンソース化しています。例えば、 IBMのData Prep Kit や NVIDIAのNeMo Curator は、あらゆる規模の企業がLLMのトレーニングやファイン・チューニングをより容易にし、AIアプリケーションからより迅速かつコスト効率よく価値を得られるようにしています。
企業がLLMやAIアプリケーションの開発とデプロイを急ぐ中、最大のボトルネックの1つはデータ準備です。実際、Gartner社の2023年のレポート「AI開発を合理化するデータ中心のソリューションの開発を探求する」で調査されたエンタープライズAIチームの79%が、自分たちが実行する最も一般的な戦略的タスクはデータの準備と生成であると回答しています。
データ準備は通常、LLMの開発における2つの主要な段階で行われます。事前トレーニングの段階では、モデルが数百テラバイトのデータを使ってトレーニングされるため、モデルは平易な英語を理解し、さまざまな分野で十分な知識とニュアンスを習得できます。Zerfos氏によると、モデルをゼロから事前トレーニングするには数百人と数百万ドルが必要となるため、そのためのリソースを持つのは巨大企業または資本力のある少数のスタートアップ企業だけです。
データ準備の第2段階では、AIチームが対象となる小規模なデータを使用してLLMをファイン・チューニングし、より正確で関連性の高いテキストを生成できるようにします。十分なリソースを持つ一部の巨大企業は両方のフェーズを行っていますが、ほとんどの企業は、既に他社が構築したモデルをファイン・チューニングするためのデータ準備に重点を置いています。
IBMやNVIDIAを含む数社が最近、非構造化データの準備という困難な作業に取り組む開発者を支援するツールをオープンソース化しました。IBMのData Prep Kitは、開発者がパイプラインにプラグインして、事前トレーニングまたはファイン・チューニング段階でデータをキュレートできるモジュールのライブラリーです。モジュールは、テキスト(PDFなど)やコード(HTML)などの非構造化データを含むソース文書を処理し、データの注釈付け、変換、フィルタリングに使用できます。
Zerfos氏によると、IBMチームはこれらのツールをオープンソース化し、あらゆる規模の企業が利用できるようにしました。「開発者は、ノートPC、サーバー、クラスターのいずれで実行する場合でも、特別なことを行う必要はありません」と彼は言います。「また、あらゆるクラウド・インフラストラクチャー上でも実行できます。」
2024年5月のローンチ以来、開発者はGitHub経由でアクセスできるData Prep Kitフレームワークとそのモジュールを試してきました。Zerfos氏によると、大小のテクノロジー企業が参加するコミュニティーであるAI Allianceの一部メンバーは、特定のモジュールがトレーニングと微調整を合理化および加速する方法のテストを開始しました。
AIハードウェアおよびソフトウェア大手のエヌビディアも最近、生成AIモデルの精度を向上させるための一連のデータ準備モジュールをオープンソース化しました。NVIDIA NeMo Curatorはテキスト、画像、動画データを大規模に処理します。また、生成AIシステムをカスタマイズして評価するための合成データを生成する事前構築パイプラインも提供します。
NVIDIA の NeMo Curator が高速化を約束するタスクの 1 つは重複排除です。Common Crawlのような大規模なWebクロール・ソースからデータをダウンロードする場合、モデルは通常、互いに完全に重複しているドキュメントとほぼ重複しているドキュメントの両方に遭遇します。
このツールの開発者は、次期バージョンのNeMo Curatorを使用することで、組織はこの重複排除タスクを現在より20倍速く、しかも5分の1の費用で完了できるようになると述べています。
確かに、これらのツールがオープンソース化されると、より広範囲に利用できるようになります。しかし、Enterprise AIチームがこれらのツールから価値を生み出すには、ある程度のレベルのスキルとトレーニングが依然として必要であると、Gartner社の特別副社長アナリストであるMark A. Beyer氏などの専門家は警告しています。
「それをサポートするガイダンス、方法論、機能のないツールを誰かに提供するだけでは、実験になってしまうと彼は言います。「既存のツールを単純に利用するより、4~5倍の時間がかかる可能性があります」
しかし今後、 The Data Exchange ポッドキャストのホストであるベン・ロリカ氏は、まだ初期段階ではあるものの、企業がマルチモーダル・データの利用を増やすにつれ、データ準備ツールに大きな可能性が出てくると見ています。
「アプリケーションがテキストに加えてビデオやオーディオにますます依存するようになると、より大きなデータセットを拡張して使用し、所有するあらゆるハードウェアを活用できる何らかのツールが必要になります」と彼は言います。「特にエージェントの世界では、データが差別化要因になります。人々は適切なデータに適切なタイミングでアクセスしたいと思っているのです。」