データ・バイアスとは

グラフとチャートが表示されたデジタル・スクリーンの隣に立つノートPCとタブレットを持つ2人

共同執筆者

Julie Rogers

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

データ・バイアスとは

データ・バイアスは、人工知能(AI)モデルのトレーニングおよび微調整データ・セットに存在するバイアスがモデルの動作に悪影響を及ぼす場合に発生します。

AIモデルは、特定のパターンを認識したり、特定の決定をするためにデータ・セットでトレーニングされたプログラムです。関連するデータインプットにさまざまなアルゴリズムを適用して、プログラムされたタスクやアウトプットを実現します。

歴史的バイアスや代表性バイアスなど、バイアスのあるデータに基づいてAIモデルをトレーニングすると、特定のグループや個人を不当に表現したり、差別したりする可能性のある偏った出力や歪んだ出力が生成される可能性があります。こうした影響は、AIやAIを使用する組織に対する信頼を損なうことになります。また、企業にとっては法的・規制的な罰則につながる可能性もあります。

データ・バイアスは、意思決定を支援するためにAIを活用することが増えている医療人事金融などの影響力が大きい産業にとって重要な考慮事項です。組織は、データ・バイアスのさまざまな種類とその発生方法を理解し、AIライフサイクル全体を通じてこれらのバイアスを特定、軽減、管理することで、データ・バイアスを軽減することができます。

データ・バイアスのリスクとは

データ・バイアスは、不公平、不正確、かつ信頼性の低いAIシステムにつながり、個人、企業、社会に深刻な影響を与える可能性があります。データ・バイアスのリスクには次のようなものがあります。

差別と不平等

AIシステム内のデータバイアスは、既存の社会的バイアスを永続化させ、性別、年齢、人種、民族などの性質に基づく不当な扱いにつながる可能性があります。疎外されたグループが、データ内で過小評価されたり、データから除外されたりする可能性があり、その結果、実際の人口のニーズに対応できない意思決定が下されることがあります。

たとえば、主に似通った男性労働者からのデータでトレーニングされた採用アルゴリズムは、優秀な女性の応募者を過小評価する一方で、男性の候補者を優先する可能性があり、職場における男女の不平等を永続化させてしまう可能性があります。

不正確な予測と決定

歪んだデータでトレーニングされたAIモデルは誤った結果を出力する可能性があり、組織の意思決定が不適切になったり、効果のないソリューションが提案されたりする可能性があります。たとえば、偏った予測分析を使用する企業は、市場の傾向を誤って解釈し、その結果、不適切な製品の発売やリソースの誤った割り当てにつながる可能性があります。

法的および倫理的な影響

データ・バイアスにより、組織は規制上の精査、法的違反、多額の罰金を科されるリスクにさらされる可能性があります。たとえばEU AI法に基づいて禁止されたAI慣行に準拠しない場合、最大35,000,000ユーロの罰金、または世界的な年間売上高の7%のいずれか金額が大きい方が課せられる場合があります。

現地の法律に違反している組織は、評判や顧客の信頼を損なう可能性もあります。仮にある小売企業が、特定の人口グループに高い価格を請求するAI搭載の料金体系を使用したことによる、差別が判明したとします。この状況は、企業のブランド・イメージや顧客ロイヤルティーを損なう広報分野の危機を引き起こしかねません。

信頼の喪失

データ・バイアスによって、AIシステムへの信頼が損なわれる可能性があります。非常に深刻な、または反復的にバイアスを含む、または不正確なAI駆動型の意思決定が行われると、個人やコミュニティーは、AIを導入する組織の整合性について疑問を抱くようになる可能性があります。また、AI全体の信頼性と公平性に対してますます懐疑的な人が増え、テクノロジーの採用に消極的になるかもしれません。

フィードバック・ループ

偏った結果を意思決定のための入力データとして使用するAIシステムは、時間の経過とともにバイアスを強化するフィードバックループを生み出します。アルゴリズムが継続的に学習し、同じ偏ったパターンを永続させるこのサイクルで、出力結果の歪みはさらに大きくなります。

たとえば、レッドライニング(人種に基づいて金融サービスを拒否されること)などの歴史的な差別は、銀行のローンの意思決定を割り当てられたAIモデルのトレーニングデータに反映される可能性があります。AIシステムがこのデータを使用してアプリケーションを処理する際、はるか昔にレッドライニングの被害に遭った人たちと社会経済的特徴を共有する個人を、不当に不利な立場に置く可能性があります。最近の融資拒否された人たちデータは、将来のAIの意思決定に利用される可能性があるため、過小評価されているグループのメンバーに対する融資機会が少ない状態が繰り返されるサイクルにつながる可能性があります。

AIバイアス、アルゴリズム・バイアス、データ・バイアス

データ・バイアス、AIバイアス、アルゴリズム・バイアスはすべて、歪んだアウトプットと潜在的に有害な結果をもたらす可能性がありますが、これらの用語には微妙な違いがあります。

AIバイアス

AIバイアスは、機械学習バイアスとも呼ばれ、人工知能システムに関連するさまざまなタイプのバイアスの総称です。これは、元のトレーニング・データやAIアルゴリズムに歪みを与える人間のバイアスに起因する偏った結果の発生を指します。

アルゴリズムのバイアス

アルゴリズム・バイアスは、機械学習アルゴリズムのシステムエラーが不公平または差別的な結果をもたらす場合に発生するAIバイアスの一部です。アルゴリズム・バイアスは、アルゴリズム自体が原因ではなく、開発者がトレーニングデータを収集・コーディングする方法が原因です。

データ・バイアス

データ・バイアスもAIバイアスに該当し、アルゴリズム・バイアスの原因の一つとなる可能性があります。データ・バイアスとは、特にAIモデルのトレーニングに使用されるデータが歪んでいたり、過小評価されていることを指します。

トラック上を転がるボールの3Dデザイン

最新のAIニュースと洞察 


AIやクラウドなどについて、専門家が厳選したインサイトやニュースを、Thinkニュースレターで毎週お届けします。

データにはどのようなバイアスがあるか

さまざまな種類のバイアスについて理解し、それらに対処することで、正確で信頼できるAIシステムを作成することができます。一般的なデータ・バイアスには、次のようなものがあります。

  • 認知バイアス
  • 自動化バイアス
  • 確証バイアス
  • 除外バイアス
  • 歴史的(時間的)バイアス
  • 潜在的バイアス
  • 測定バイアス
  • 報告バイアス
  • 選択バイアス
  • サンプリング・バイアス

認知バイアス

人が情報を処理し判断を行う時、自分の経験や好みに影響されることは避けられません。その結果、データの選択や重要度の決定方法を通じて、人々の偏見がAIシステムに組み込まれてしまう可能性があります。認知バイアスにより、たとえば世界中のさまざまな集団からサンプリングしたデータ・セットではなく、アメリカ人から収集したデータ・セットが優先されるような状況が、体系的なエラーへと繋がる場合があります。

自動化バイアス

自動化バイアスは、ユーザーがオートメーション・テクノロジーに過度に依存し、そのアウトプットを無批判に受け入れることで発生し、既存のデータ・バイアスが永続化および増幅される可能性があります。たとえば、医療分野では、医師が患者の治療計画を提案するためにAI診断ツールに大きく依存している場合があります。臨床に基づく経験に照らして検証しないことにより、ツールの決定が偏ったデータに基づいて行われてしまった場合、医師が患者に誤った診断をする可能性があります。

確証バイアス

確認バイアスは、既存の信念や仮説を確認するために選択的にデータが取得される場合に発生します。たとえば、法執行機関が歴史的に犯罪率が高い地域にデータ収集を集中させると、予測的ポリシングで確認バイアスが発生します。これにより、地域に関する既存の仮定を支持するデータが選択的に含まれるため、これらの地域のオーバーポリシングが生じます。

除外バイアス

除外バイアスは、データセットから重要なデータが省かれている場合に起こります。経済予測では、低所得者層地域のデータを体系的に除外することで、人口について正確に表さないデータ・セットが得られ、富裕層に偏った予測につながります。

歴史的(時間的)バイアス

時間的バイアスとも呼ばれる歴史的バイアスは、現在のコンテキストではなく、データ収集中に存在した過去の不平等やバイアスをデータが反映した場合に発生します。このカテゴリに当てはまるデータ・バイアスの例には、過去の雇用データに基づいてトレーニングされたAI採用システムなどがあります。これらのデータ・セットでは、有色人種の人々は上位の仕事では過小評価されている可能性があり、このモデルは不平等を永続化させてしまう可能性があります。

潜在的バイアス

潜在的バイアスは、一般的なデータではなく、個人的な経験に基づいた人々の推測がMLの構築やテストに投入された場合に起こります。たとえば、求職者を評価するようにトレーニングされたAIシステムでは、開発者の無意識のバイアスを反映して、(性別はモデル内で明示的な要素ではないにもかかわらず)男性的な内容の履歴書を優先するかもしれません。

測定バイアス

測定バイアスは、データの精度や品質がグループ間で異なる場合や、主要な調査変数が不正確に測定または分類された場合に発生する可能性があります。たとえば、入学許可の主な要素として高いGPAを使用する大学入学モデルでは、特定の学校では他の学校よりも高い成績を達成することが容易である可能性があるという考えは考慮されていません。ある学校で、GPAが低いものの、より困難なコースを受講している学生は、他の学校で、GPAが高いものの、比較的難しくないコースを受講している学生よりも、より能力が高い候補者である可能性があります。GPAに重点を置いているため、このモデルではこの可能性を意思決定プロセスに考慮していないかもしれません。

報告バイアス

報告バイアスは、データ・セット内のイベントまたは結果の頻度が実際の頻度を表していない場合に発生します。このバイアスは、人間がデータの選択に関与する場合によく発生します。人間は、重要に思える、または記憶に残るエビデンスを文書化する可能性が高いからです。

たとえば、感情分析モデルは、大規模なeコマース・ウェブサイトの商品が肯定的に評価されるか、否定的に評価されるかを予測するためにトレーニングします。トレーニング・データ・セット内の類似製品のレビューのほとんどは、極端な意見を反映しています。人々は、その製品に対して強い感想を持たなかった場合、レビューを残す可能性が低いため、モデルの予測の精度は低くなります。

選択バイアス

選択バイアスは、トレーニングに使用されるデータ・セットが十分に代表的ではない場合、またはシステムを必要なレベルまでトレーニングするには十分な規模でない場合、または不完全すぎる場合に発生します。たとえば、日中の運転データに基づいて自動運転車をトレーニングすることは、その車両が現実世界で遭遇する可能性のあるすべての運転シナリオを表しているわけではありません。

サンプリング・バイアス

サンプリング・バイアスとは、適切なランダム化を行わずに、ある情報が他の情報よりも含まれる可能性が高い方法でサンプル・データが収集された場合に発生する選択バイアスの一種です。たとえば、心臓病のリスクを予測するように設計された医療AIシステムが、中年の男性患者のデータのみを使用してトレーニングされた場合、不正確な予測が出力される可能性があります。このシステムは、特に女性や他の世代の人々に影響を与えるでしょう。

データ・バイアスの軽減

AI内のバイアスを軽減するには、まずAIガバナンスから始めます。AIガバナンスは、AIツールやシステムが安全かつ倫理的であることを確実にするガイドラインの役割を果たします。透明性、説明責任性、倫理的配慮を重視する責任あるAIの実践は、組織が複雑なバイアス軽減を克服するための指針となります。

データ・バイアスを軽減するために、組織は、データ収集と分析全体を通じてバイアスを特定し、軽減し、管理することを目的とした次のような強固な戦略と実践を導入する必要があります。

  • 代表的なデータ収集
  • 監査とアセスメント
  • 透明性
  • バイアス検出ツール
  • インクルーシブなチーム
  • 合成データ

代表的なデータ収集

データ・ソースでの幅広い表明により、バイアスを軽減できます。データ収集プロセスには、さまざまな人口統計、文脈、条件がすべて適切に表明されている必要があります。たとえば、顔認識ツールで収集されたデータに含まれている画像が主に白人である場合、モデルは黒人の顔を正確に認識または区別できない可能性があります。

監査とアセスメント

バイアス監査により、組織はデータとアルゴリズムの潜在的なバイアスについて定期的に評価し、結果を確認し、さまざまな人口統計グループ間で不当な扱いの指標がないかデータ・ソースを調査することができます。さまざまな人口統計グループにわたる継続的なパフォーマンス監視は、結果の不一致を検出して対処する上で有用であるため、存在するバイアスを特定し、適時除去するのに役立ちます。

透明性

データ収集方法とアルゴリズムによる意思決定方法を文書化することで、特に潜在的なバイアスを特定・対処する方法に関して、透明性が向上します。オープン・データ・ポリシーは、外部からのレビューと批評を促進し、収集とデータ分析における説明責任性を促進します。これは、AIシステムに対する信頼を育むために不可欠です。

バイアス検出ツール

アルゴリズムの公平性ツールとフレームワークを使用すると、機械学習モデルのバイアスを検出・軽減するのに役立ちます。IBMが開発したオープンソース ツールキットであるAI Fairness 360は、データ・セットや機械学習モデル内のバイアスを検出するためのさまざまなメトリクスと、バイアスを軽減して公平性を促進するアルゴリズムを提供します。さまざまな人口統計グループにわたる予測の公平性を評価する統計的手法を実装することで、客観性をさらに向上させることができます。

インクルーシブなチーム

データサイエンスチームとアナリティクスチームの多様性を育むことで、さまざまな視点が得られ、バイアスのリスクを減らすことができます。多様なチームは、幅広いエクスペリエンスや視点を活用しているため、データ・セットやアルゴリズムに潜む潜在的なバイアスを認識し、対処する可能性が高まります。たとえば、人種、性別、社会経済的背景が異なるメンバーで構成されるチームでは、データが特定のグループの人々について誤って伝えたり、見落としたりする可能性のある領域をより適切に特定できます。

合成データ

合成データは、現実世界の出来事から収集されたデータ・ポイントの代わりに、コンピューター・シミュレーションまたはアルゴリズムを通じて人工的に生成されたデータです。データの入手が困難である場合や、データ・プライバシー保護効果が高まるため、データサイエンティストは合成データが有益な代替手段であると考えることがよくあります。合成データは、過小評価されているグループやシナリオを含むバランスの取れたデータセットを意図的に作成できるようにすることで、バイアスを軽減し、より公平なモデル結果を確保します。

関連ソリューション
IBM® watsonx.governance

IBM watsonx.governanceを使用すれば、生成AIモデルをあらゆる場所から管理したり、クラウドまたはオンプレミスにデプロイしたりできます。

watsonx.governanceについて
AIガバナンス・ソリューション

AIガバナンスが、どのように従業員のAIに対する信頼向上や、導入とイノベーションの加速、顧客からの信頼向上に役立つかをご覧ください。

AIガバナンス・ソリューションの詳細はこちら
AIガバナンス・コンサルティング・サービス

IBMコンサルティングを活用して、EUのAI法に備え、責任あるAIガバナンスに取り組みましょう。

AIガバナンス・サービスの詳細はこちら
次のステップ

AIを単一のポートフォリオで統括・管理・監視することで、透明性を高め、責任ある説明可能なAIの導入を加速させます。

watsonx.governanceの詳細はこちら デモの予約