テラバイト単位のデータでトレーニングを受けたLLMは、明示的にプログラムしなくても意思決定や予測を行う方法を「学習」します。機械学習として知られるこのAIの一分野は、機械学習アルゴリズムが人間の学習方法を模倣し、生成するコンテンツの精度を徐々に向上させることで、急速に普及が進んでいます。

しかしデータが増えるということは、問題が増えるということでもあります。あるいは、IBMシニア・リサーチ・サイエンティストのNathalie Baracaldoが述べているように、「学習したデータは、良いデータでも悪いデータでも定着する」ということです。

そのため、大規模なモデルは、より有害で憎しみに満ちた言葉を生成し、サイバーセキュリティー基準に違反する機密データを含む可能性があります。なぜでしょうか。これらのモデルは、インターネットからの非構造化データや信頼できないデータでトレーニングされています。たとえデータのフィルタリングを厳密に試みても、モデルを調整して、どのような質問に答えてはいけないのか、どのような回答を提供すべきなのかを定義し、その他のガードレールを使用してモデルのアウトプットを検査しても、望ましくない振舞い、マルウェア、有害な情報、著作権や保護された資料はにじみ出てきます。

こうしたモデルを再トレーニングして望ましくないデータを削除するには、数か月の時間と数百万ドルの費用がかかります。さらにモデルがオープンソースの場合、基盤モデルの脆弱性は他の多くのモデルやアプリケーションにも引き継がれます。

アンラーニングのアプローチは、こうした問題を軽減することを目的としています。有害で非倫理的な言葉、著作権で保護された用語、不要なテキスト・プロンプトを含むコンテンツといった、具体的なデータポイントを含むアンラーニング・ターゲットを特定することで、アンラーニング・アルゴリズムは対象コンテンツの影響を効率的に排除します。