オープンソースコンポーネントは、AIのサプライチェーンにおいてクリティカルな役割を果たしています。モデルをゼロからトレーニングするために必要な膨大なデータにアクセスできるのは大企業だけであるため、LAION 5BやCommon Corpusなどのオープンソースのデータ・セットに大きく依存する必要があります。これらのデータセットの規模が膨大であることは、データ品質や著作権法やプライバシー法の遵守を維持することが非常に困難であることを意味します。これとは対照的に、ChatGPTのような主流の生成AIモデルは、独自にキュレーションしたデータセットを使用するブラックボックスです。これには独自のセキュリティー課題が伴います。

垂直化された独自のモデルでは、独自のデータ・セットを使用した追加のトレーニングにより、オープンソースの基盤モデルが改良されています。たとえば、次世代のカスタマー・サービス用チャットボットを開発している企業は、過去の顧客とのコミュニケーション記録を使用して、特定のニーズに合わせたモデルを作成するかもしれません。このようなデータは長年にわたりサイバー犯罪者の標的となってきましたが、生成AIの猛烈な台頭により、悪意のある攻撃者にとってますます魅力的なものになっています。

サイバー犯罪者は、これらのデータ・セットを標的にすることで、誤情報や悪意のあるコードやデータでデータ・セットを汚染することができます。侵害された情報がAIモデルのトレーニング・プロセスに入ると、これがAIソフトウェアのライフサイクル全体に波及的に影響します。大規模言語モデル（LLM）をトレーニングするには、数千時間と膨大な計算能力が必要になることがあります。これは、経済的にも環境的にも非常にコストのかかる取り組みです。だとしても、トレーニングで使用されたデータ・セットが侵害された場合は、プロセス全体をゼロから始めなければならなくなるでしょう。