データサイエンティストは、完璧なモデルを構築しようとするあまり、意図せずモデルに人間のバイアスを組み込んでしまうことがあります。多くの場合、こういったバイアスはトレーニング・データを通して徐々に浸透し、増幅されてモデルに組み込まれてしまいます。このようなモデルが実稼働サイクルに入ると、信用スコアや正常性診断の誤った予測など、バイアスによって引き起こされる重大な影響が生じる可能性があります。さまざまな業種・業務において、バイアスのモデルが実稼働サイクルに入るのを防ぐことを目的に、モデルの公平性と信頼できるAIに関する規制要件が施行されています。
責任あるデータサイエンティストになるためには、モデル・パイプラインを構築する際に重要な考慮事項が2つあります。
バイアスと不公平性を検知して定義するのは容易ではありません。データサイエンティストが潜在的な倫理的懸念事項を反映し特定できるようにするため、データ・マイニングの標準的なプロセスには、データ・リスクの評価、モデル・リスクの評価、実稼働監視という3つのステップを追加で含める必要があります。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
このステップでは、ターゲット変数に対してさまざまな人々のグループ間に不均衡があるかどうかをデータサイエンティストは評価できます。たとえば、管理職に採用される割合は女性よりも男性が圧倒的に多いのが現状です。しかし、性別に基づいて仕事を提供することは違法であることは誰もが知っているため、モデルのバランスをとるために、性別は重要ではなく、排除できると主張することもできます。しかし、性別を排除することで他にどのような影響が生じうるでしょうか?このステップを実行する前に、適切な専門家に相談し、現在のチェックがモデルの潜在的なバイアスを軽減するのに十分であるかどうかを判断する必要があります。
データ・バランシングの目標は、実稼働環境で使用されるデータの分布を模倣することです。これは、トレーニング・データが実稼働環境でリアルタイムで使用されるデータに可能な限り近いものであることを保証するためです。したがって、最初に思いつく対処策はバイアスのある変数を取り除くことですが、このアプローチで問題が解決される可能性は低いでしょう。多くの場合、変数は相関しており、相関フィールドの 1 つからバイアスが入り込み、モデル内で代理置換として存在することがあります。したがって、バイアスを除去する前にすべての相関関係をスクリーニングし、バイアスが本当に除去されたことを確認する必要があります。
モデル予測は即時かつ深刻な影響を及ぼします。実際、モデルの予測は誰かの人生を完全に変える可能性があります。モデルがあなたの信用スコアが低いと予測した場合、クレジットカードやローンを取得したり、住宅を探したり、適正な金利を得たりするのに苦労するため、生活のあらゆる面に影響を及ぼす可能性があります。また、スコアが低い理由を突き止めなければ、改善の余地はありません。
データサイエンティストの仕事は、モデルがすべての人に最も公平な結果をもたらすことを保証することです。データに偏りがあれば、モデルはそのバイアスから学習し、不公平な予測を行ってしまいます。ブラックボックスモデルは優れた成果をもたらしますが、解釈可能性や説明可能性がほとんどないため、リスクの有無を確認することができず、公平性も確保されません。したがって、モデルの成果について深く掘り下げる必要があります。データサイエンティストは、解釈可能性とモデルの性能のトレードオフを評価し、両方の要件を最大限に満たすモデルを選択する必要があります。
データサイエンティストによって開発されたモデルは、多くの場合はMLOpsチームに渡されます。新しいモデル・データが本番環境に導入されると、バイアスの新たな可能性が生じたり、適切な監視を実施することなくこれまで見落とされていたバイアスが強化されたりする可能性があります。実稼働データは性能や一貫性のドリフトにつながり、モデルとデータにバイアスが広がる恐れがあります。モデルの性能の低下を示す適切なアラートと、 IBM Watson Studioなどのツールを使用して使用に適さなくなったモデルをいつ廃止するかを決定するメカニズムを導入して、モデルを監視することが非常に重要です。繰り返しになりますが、データ品質は、実稼働データの分布とモデルのトレーニングに使用されるデータを比較することにより追跡する必要があります。
責任あるデータサイエンスとは、コードやパフォーマンス以外の点でもモデルについて考えることであり、使用されるデータとその信頼性によって大きな影響を受けます。結局のところ、バイアスを軽減することは、モデルが適切な人間のプロセスに従うことを保証するために役立つ、繊細でありながら重要なプロセスです。これは新しいことをしなければならないという意味ではありませんが、私たちデータサイエンティストがすでに行っていることを再考し、責任ある方法で行うことが重要です。
信頼できるAIを開発する能力にデータがどのような影響を与えるかの詳細については、当社ウェブサイトをご覧ください。
データサイエンスのツールとソリューションを使って、データ、アルゴリズム、機械学習、AI技術を活用してパターンを発見し、予測モデルを構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。