ワールド・ワイド・ウェブはつながりを促進し、ビジネスの成長を加速し、何世紀にもわたる知識をすぐに利用できる手元に置きます。
しかし、すべてのメリットがある一方で、憎悪的な言葉や有害なコンテンツの巣窟になる可能性もあります。そしてここに溜まったものは、大規模言語モデル(LLM)やその自然言語処理(NLP)機能など、今日の多くの基盤モデルのトレーニングに使用されるインターネット・データの広大な海へと流れ込んでいきます。
このような攻撃的な言葉の浸透は、人工知能(AI)モデルの完全性と使いやすさを脅かします。なぜでしょうか。なぜなら、LLMが憎悪に満ちた人間の行動を含むデータセットで訓練されれば、有害な結果を生む可能性があるからです。さらに、この有害なコンテンツは、ファイン・チューニングや検索拡張生成(RAG)による最適化、あるいはLLMがユーザーと対話する際にも、AIモデルに入り込む可能性があります。
攻撃的なコンテンツのフィルタリングと削除は、AIモデルを安全で、包括的でバイアスのないものにし、ユーザーにポジティブな体験を提供するための中心となる役割を担っています。そのようなソリューションの1つが、モデルに基づいた憎悪、虐待、冒とく(HAP)の体系的なフィルタリングで、これがHAPフィルタリングと呼ばれます。
HAPフィルタリングは、分類モデルを使用して、LLMの入力テキストおよび出力テキストからヘイト・スピーチ、暴言、冒とく的な言葉を検知して削除するシステムです。
HAPフィルタリングを完全に理解するには、分類モデルの理解が役立ちます。分類モデルは、データ・ポイントをクラスと呼ばれる定義済みのグループに分割する機械学習モデルです。入力データからクラス特性を学習し、学習した特性に基づいて新しいデータに可能なクラスを割り当てます。例えばスパムEメール・フィルターは、分類アルゴリズムを使用しています。HAPフィルタリング分類モデルは、より具体的にセンテンス分類器、より簡潔にHAPフィルターまたはHAP検出器と呼ばれる場合もあります。
ヘイト・スピーチ、暴言、冒とく的な言葉は次のように定義されます。
実際には、HAPフィルタリング・センテンス分類器はモデルの入力または出力テキストの各単語を評価して、HAPコンテンツが含まれているかどうかを判断します。次に、HAPコンテンツが存在する可能性を表すスコア(おそらく0から1まで)を割り当てます。この場合、スコアが1に近いほど、HAPコンテンツの可能性が高いことを示します。ユーザーがHAPコンテンツに対して設定したしきい値(例えば、「0.5より大きいスコア=HAP」)に応じて、モデルは各文章にHAPを含むかどうかを示すラベルを割り当てます。
最後に、HAPコンテンツが事前トレーニングデータに含まれている場合は、フラグを付けて削除することもできます。あるいは、HAPコンテンツがアウトプットの場合、そのアウトプットには削除された有害なテキストが含まれたことを示すガードレール・メッセージに置き換えることができます。
IBM Research によると、現在、HAPフィルターの主なユースケースは3つあります。
LLMは通常、一連のデータソースでトレーニングされ、その中にはヘイトコンテンツや不適切なコンテンツが含まれている可能性があります。HAPフィルタリングは、LLMがそのようなコンテンツから学習するのを防ぐのに役立ちます。これは、未加工データがまだ大量に残っているデータの前処理中によく発生します。
HAPモデルは、元のモデルを再トレーニングすることなく、生成AIモデルのアウトプットを制御するのに役立ちます。このコントロールでは、元のスコアリング方法とHAPスコアリングの両方を使用してモデル予測をスコア付けするように生成プロセスを変更して、許容できる、ヘイトのないコンテンツを確保する必要があります。
HAPフィルタリングに加えて、モデルに出入りする不正確、不適切、または偏ったデータのインスタンスを減らすために実行される他のデータ・クリーニング、データ品質、および調整手順が頻繁に行われることに注意することが重要です。
AIに関連する多くのテクノロジーと同様、HAPフィルタリングの世界でもイノベーションが進んでいます。IBMの研究者は、HAPフィルターを改善する2つの方法を特定しました。それは、より小規模なオープンソース・モデルと攻撃的なスパン識別ツールを使用することです。
理想の世界では、HAPフィルタリングはLLMライフサイクルの各段階で発生します。しかし、この使用には、今日のHAPフィルターのほとんどでサイズが大きいために欠けている速度が必要となります。
これは、IBMのより高速で新しいHAPフィルターであるGranite-Guardian-HAP-38mの、インスピレーションとなりました。この3800万パラメータのエンコーダー・モデルは、1億2500万パラメーターの前身モデル(Granite-Guardian-HAP-125m)よりも小型です。そのため、中央処理装置(CPU)は8倍、グラフィック処理装置(GPU)は2倍の速度で実行でき(どちらもスマートフォンとPCに搭載)、LLMライフサイクルの各段階でデータを迅速にフィルタリングできます。
どちらのHAPフィルタリング・モデルのバリアントも、watsonx.aiで利用できます。しかし、信頼できるAIエコシステムの促進を続けるため、IBMはHugging Faceの両方のHAPフィルターをオープンソース化しました。
HAPフィルターの粒度と言語のダイバーシティーを高めるために、IBMの研究者は、MUTED: A MUltilingual Targeted DemonstrationというHAP視覚化ツールを開発しました。
MUTEDは、文レベルの注釈を超えて、文を「ターゲット」と攻撃的なスパン(または攻撃的な議論)に分割します。たとえば、「それらの人々はひどいドライバーです」という文では、ターゲットは「それらの人々」であり、攻撃的なスパンは「ひどいドライバー」です。このアイデアは、MUTEDが攻撃的なスパンを特定し、ヒートマップを使ってその強度をランク付けし、有害と見なされた場合はユーザーから非表示にするというものです。1
1「Muted: Multilingual Targeted Offensive Speech Identification and Visualization」、Association for Computational Linguistics、2023年12月。
第3世代のAI言語モデルが登場しました。目的に適合し、オープンソース化されたエンタープライズ対応モデルは、安全性ベンチマークに対して、またサイバーセキュリティーからRAGまでの幅広い企業向けのタスクにわたって優れたパフォーマンスを発揮します。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
AIの潜在能力を最大限に引き出し、AIガバナンスが従業員のAIに対する信頼を高め、導入とイノベーションを加速し、顧客の信頼を向上させるのにどのように役立つかをご覧ください。