タグ

AIの純化：有害なコンテンツに対するHAPフィルタリング

共同執筆者

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

ワールド・ワイド・ウェブはつながりを促進し、ビジネスの成長を加速し、何世紀にもわたる知識をすぐに利用できる手元に置きます。

しかし、すべてのメリットがある一方で、憎悪的な言葉や有害なコンテンツの巣窟になる可能性もあります。そしてここに溜まったものは、大規模言語モデル（LLM）やその自然言語処理（NLP）機能など、今日の多くの基盤モデルのトレーニングに使用されるインターネット・データの広大な海へと流れ込んでいきます。

このような攻撃的な言葉の浸透は、人工知能（AI）モデルの完全性と使いやすさを脅かします。なぜでしょうか。なぜなら、LLMが憎悪に満ちた人間の行動を含むデータセットで訓練されれば、有害な結果を生む可能性があるからです。さらに、この有害なコンテンツは、ファイン・チューニングや検索拡張生成（RAG）による最適化、あるいはLLMがユーザーと対話する際にも、AIモデルに入り込む可能性があります。

攻撃的なコンテンツのフィルタリングと削除は、AIモデルを安全で、包括的でバイアスのないものにし、ユーザーにポジティブな体験を提供するための中心となる役割を担っています。そのようなソリューションの1つが、モデルに基づいた憎悪、虐待、冒とく（HAP）の体系的なフィルタリングで、これがHAPフィルタリングと呼ばれます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

HAPフィルタリングとは

HAPフィルタリングは、分類モデルを使用して、LLMの入力テキストおよび出力テキストからヘイト・スピーチ、暴言、冒とく的な言葉を検知して削除するシステムです。

分類モデルとは

HAPフィルタリングを完全に理解するには、分類モデルの理解が役立ちます。分類モデルは、データ・ポイントをクラスと呼ばれる定義済みのグループに分割する機械学習モデルです。入力データからクラス特性を学習し、学習した特性に基づいて新しいデータに可能なクラスを割り当てます。例えばスパムEメール・フィルターは、分類アルゴリズムを使用しています。HAPフィルタリング分類モデルは、より具体的にセンテンス分類器、より簡潔にHAPフィルターまたはHAP検出器と呼ばれる場合もあります。

HAPコンテンツと見なされるものは

ヘイト・スピーチ、暴言、冒とく的な言葉は次のように定義されます。

ヘイト・スピーチ：人種、宗教、民族、性的指向、障害、性別などの属性に基づく個人またはグループに対する憎悪の表現。ヘイト・スピーチとは、グループのメンバーを傷つけたり、侮辱したり、暴力や社会の混乱を助長したりする意図を示すものです。
暴言：誰かや何かをいじめたり、貶めたり、恥をかかせたりすることを目的とした、失礼な言葉や人を傷つける言葉。
冒とく的な言葉：罵倒、侮辱、性的に露骨な表現などの有害な言葉。

HAPフィルタリングはどのように機能しますか

実際には、HAPフィルタリング・センテンス分類器はモデルの入力または出力テキストの各単語を評価して、HAPコンテンツが含まれているかどうかを判断します。次に、HAPコンテンツが存在する可能性を表すスコア（おそらく0から1まで）を割り当てます。この場合、スコアが1に近いほど、HAPコンテンツの可能性が高いことを示します。ユーザーがHAPコンテンツに対して設定したしきい値（例えば、「0.5より大きいスコア＝HAP」）に応じて、モデルは各文章にHAPを含むかどうかを示すラベルを割り当てます。

最後に、HAPコンテンツが事前トレーニングデータに含まれている場合は、フラグを付けて削除することもできます。あるいは、HAPコンテンツがアウトプットの場合、そのアウトプットには削除された有害なテキストが含まれたことを示すガードレール・メッセージに置き換えることができます。

AI Academy

AIにおける信頼、透明性、ガバナンス

AIの信頼性は、AIにおいて最も重要なトピックといえるでしょう。また、圧倒されても仕方がないようなトピックでもあります。ハルシネーション、バイアス、リスクなどの問題を解明し、倫理的で、責任ある、公正な方法でAIを導入する手順を紹介します。

エピソードに移動

HAPフィルターのユースケース

IBM Research によると、現在、HAPフィルターの主なユースケースは3つあります。

LLMトレーニング・データのフィルタリング
強化学習を用いたモデルの調整
生成AIのアウトプットの制御

LLMトレーニング・データのフィルタリング

LLMは通常、一連のデータソースでトレーニングされ、その中にはヘイトコンテンツや不適切なコンテンツが含まれている可能性があります。HAPフィルタリングは、LLMがそのようなコンテンツから学習するのを防ぐのに役立ちます。これは、未加工データがまだ大量に残っているデータの前処理中によく発生します。

強化学習を用いたモデルの調整

HAPモデルはアライメント時にも使用されます。たとえば、強化学習による調整では、アウトプットが意図した目標とどの程度一致しているかに基づいて、アウトプットに報酬が与えられます。報酬がHAPフィルターを使用してスコア付けされる場合、報酬は「非HAP」スコアになる可能性があり、モデルはこれを最大化するようにトレーニングされます。

生成AIアウトプットの制御

HAPモデルは、元のモデルを再トレーニングすることなく、生成AIモデルのアウトプットを制御するのに役立ちます。このコントロールでは、元のスコアリング方法とHAPスコアリングの両方を使用してモデル予測をスコア付けするように生成プロセスを変更して、許容できる、ヘイトのないコンテンツを確保する必要があります。

HAPフィルタリングに加えて、モデルに出入りする不正確、不適切、または偏ったデータのインスタンスを減らすために実行される他のデータ・クリーニング、データ品質、および調整手順が頻繁に行われることに注意することが重要です。

IBMの次世代HAPフィルター：オープンソースと攻撃スパン

AIに関連する多くのテクノロジーと同様、HAPフィルタリングの世界でもイノベーションが進んでいます。IBMの研究者は、HAPフィルターを改善する2つの方法を特定しました。それは、より小規模なオープンソース・モデルと攻撃的なスパン識別ツールを使用することです。

より小規模なオープンソースHAPフィルター

理想の世界では、HAPフィルタリングはLLMライフサイクルの各段階で発生します。しかし、この使用には、今日のHAPフィルターのほとんどでサイズが大きいために欠けている速度が必要となります。

これは、IBMのより高速で新しいHAPフィルターであるGranite-Guardian-HAP-38mの、インスピレーションとなりました。この3800万パラメータのエンコーダー・モデルは、1億2500万パラメーターの前身モデル（Granite-Guardian-HAP-125m）よりも小型です。そのため、中央処理装置（CPU）は8倍、グラフィック処理装置（GPU）は2倍の速度で実行でき（どちらもスマートフォンとPCに搭載）、LLMライフサイクルの各段階でデータを迅速にフィルタリングできます。

どちらのHAPフィルタリング・モデルのバリアントも、watsonx.aiで利用できます。しかし、信頼できるAIエコシステムの促進を続けるため、IBMはHugging Faceの両方のHAPフィルターをオープンソース化しました。

クリックして、IBMのオープンソースHAPフィルターの詳細を読む

攻撃的なスパンの特定

HAPフィルターの粒度と言語のダイバーシティーを高めるために、IBMの研究者は、MUTED: A MUltilingual Targeted DemonstrationというHAP視覚化ツールを開発しました。

MUTEDは、文レベルの注釈を超えて、文を「ターゲット」と攻撃的なスパン（または攻撃的な議論）に分割します。たとえば、「それらの人々はひどいドライバーです」という文では、ターゲットは「それらの人々」であり、攻撃的なスパンは「ひどいドライバー」です。このアイデアは、MUTEDが攻撃的なスパンを特定し、ヒートマップを使ってその強度をランク付けし、有害と見なされた場合はユーザーから非表示にするというものです。¹