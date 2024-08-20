タグ
合成データの調査：期待、リスク、現実

スタートアップ企業で働きながらコンピューターを見る女性ハッカー

人工知能が世界中の業種・業務を再構築する中、開発者は予期せぬ課題に直面しています。それは、ますます洗練されるモデルをトレーニングするために使用する、現実世界の高品質なデータの不足です。現在、あり得ない情報源、つまり現実にはまったく存在しないデータから、可能性をはらんだ解決策が浮上しつつあります。

合成データとは、現実世界のシナリオを模倣するために人工的に生成された情報であり、AI開発において急速に注目を集めています。データのボトルネックを克服し、プライバシーの懸念に対処し、コストを削減することが約束されています。しかし、この分野が進化するにつれて、その限界や現実世界への影響に関する疑問が浮上しています。

合成データの台頭

テクノロジー大手企業は合成データに大きな賭けをしています。NVIDIAは最近、さまざまな業種・業務の大規模言語モデル(LLM)を訓練するための合成データを生成するためのオープンモデル群である Nemotron-4 340B を発表しました。この動きは、AI開発におけるクリティカルな課題、つまり堅牢なデータセットにアクセスするための高額なコストと困難さという問題に対処するものです。

「高品質なトレーニング・データは、カスタムLLMからの応答の性能、正確性、質においてクリティカルな役割を果たします」と NVIDIAは ブログで述べています。Nemotron-4 340Bファミリーには、合成データの生成と精製のためのパイプラインを形成するベース、命令、報酬モデルが含まれており、強力なドメイン固有のLLMの開発を加速させる可能性があります。

IBMの研究者Akash Srivastava氏は、大規模言語モデルの文脈では、合成データはしばしば別のAIモデルをトレーニングまたはカスタマイズするために、あるAIモデルによって生成されると説明しています。「業界の研究者や開発者は、これらのモデルを使用して、特定の対象タスクのためのデータを生成しています」とSrivastava氏は指摘します。

MIT-IBM Watson AIラボおよびIBM Researchの研究者たちは、合成データを用いてLLMを改善する新しいアプローチを最近紹介 しました。LAB（Large-scale Alignment for チャットボット）と呼ばれるこの手法は、GPT-4のような人間の注釈や独自のAIモデルへの依存を減らすことを目的としています。

LABは、分類法に基づく合成データ生成プロセスと多段階トレーニング・フレームワークを採用しています。この研究者たちは「LABでトレーニングしたモデルは、従来の人間が注釈を付けたデータやGPT-4が生成した合成データでトレーニングしたモデルと比較して、いくつかのベンチマークで競争力のあるパフォーマンスを達成できる」と報告しています。

Labの有効性を実証するために、チームはLABRADORITE-13BとMERLINITE-7Bの2つのモデルを作成しました。このモデルは、いくつかの主要なメトリクスにおいて、同じ基本モデルの他のファイン・チューニングされたバージョンよりも優れたパフォーマンスを発揮したと報告されています。研究者らは、オープンソースのMixtralモデルを使用して合成トレーニング・データを生成しました。これは、LLMを強化するための、よりコスト効率の高いアプローチを提供する可能性があります。

合成データの品質は、その有効性を左右します。Multiverse Computingのエンジニアリング、AI、量子ディレクターであるRaul Salles de Paduaは、「合成データの忠実度は、統計的および分析的なテストを通じて現実世界のデータと比較することで算出されます。これには、合成データが変数間の平均、分散、相関関係などの重要な統計的特性をどの程度保持しているかについてのアセスメントが含まれます。

合成データにはその期待にもかかわらず、課題がないわけではありません。De Padu氏は次のように指摘しています。「合成データの課題は、有用であると同時にプライバシーが保護されるデータを作成することにあります。これらの保護措置を講じなければ、合成データによって個人情報が特定でき、個人情報の盗難、差別、その他のプライバシー侵害につながる可能性があります」

最近の研究では、合成データに依存しすぎることの潜在的な落とし穴が明らかになりました。ネイチャー誌に掲載された最近の研では、"モデル崩壊 "と呼ばれる現象が明らかになりました。AIモデルがAIの生成したテキストで繰り返しトレーニングされると、そのアウトプットはますます無意味になる可能性があり、特にAIが生成したコンテンツがオンラインで普及するにつれて、合成データの使用の長期的な実行可能性に対する懸念が強まっています。

倫理的配慮も重要です。De Padu氏は、「合成データが現実世界の人口のダイバーシティーを正確に表しておらず、異なる人口統計グループ間で公平に機能できないモデルに潜在的なバイアスが生じるリスク」について警告しています。

AI トレーニングの未来

医療や自動運転車などの重要なアプリケーションでは、合成データが重要な役割を果たすことができます。De Padu氏は、「医療分野では、合成データが実際のデータセットを補完することができ、モデルをトレーニングするための幅広いシナリオを提供し、より優れた診断および予測機能につながります。」と述べています。自動運転車の場合、「拡張のために合成データを使用することで、元のデータセットに存在しない可能性のある、より幅広い条件やエッジケースにモデルを公開することができます」と彼は付け加えます。

de Padu氏は将来を見据えて、AIトレーニングにおいて、合成データは現実世界のデータに取って代わるのではなく、補完する可能性が高いと考えています。「合成データの精度と代表性は非常に重要です。データ生成アルゴリズムの技術の進歩は、合成データの信頼性向上に重要な役割を果たすでしょう」と彼は説明します。

医療診断から自動運転車に至るまで、AI が私たちの日常生活にますます統合されるにつれて、AI トレーニングにおける合成データと実世界のデータのバランスが重要になります。今後のAI開発者にとっての課題は、合成データのリスクを軽減しながら、そのメリットを活用することです。

「今、AI開発はクリティカルな局面を迎えています」とSrivastava氏は言います。「合成データと現実世界のデータのバランスを適切に保つことで、AIの未来、つまりその機能、限界、そして最終的には社会への影響が決まります。」

著者

Sascha Brodsky

Staff Writer

IBM

