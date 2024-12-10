この秋、LinkedInは人材採用担当者向けの初のAIエージェントHiring Assistantを展開しました。OpenAIのGPTを活用したこの新製品は、職務記述書の作成、候補者の発掘、アウトリーチへの対応など、通常は採用担当者の時間を浪費するさまざまなタスクを自動化します。このツールは、LinkedInの膨大なユーザーデータを使用しており、通常は所在地や母校などの要素に基づいて候補者を分類する従来のフィルターよりもスキルを優先順位付けします。
Hiring Assistantは、人材採用のために設計されたAIの広大で多様な分野の新参です。Microsoft、Indeed、Google、IBM、その他多くのツールが既に存在します。そして需要もあります。最近のIBMの調査によると、AIの導入を促進するユースケースのうち、人事と人材採用は19%を占めています。多くの同業他社と同様、LinkedInもその新しいツールの潜在的なバイアスを認識しており、その軽減に努めるとしています。しかし、それで十分でしょうか？
「[人事アシスタント]は素晴らしいアイデアですが、透明性を確保する必要がありますし、職務記述書のどのスキルやキーワードを元にツールが推論を行うのかを私たちは知る必要があります」と、ジャーナリストであり、The Algorithm: How AI Decides Who Gets Hired, Monitored, Promoted and Fired and Why We Need to Fight Back Nowの著者であるHilke Schellmann氏はそう語ります。「この種のテクノロジーにはあまりにも多くの失敗が見られました」。
AI駆動型の採用ツールの利用が増えるにつれ、州議会や市議会からの注目も集めています。ニューヨーク市は現在、企業にAI採用システムの性能開示と偏見に関する監査の実施を求めています。カリフォルニア州では、交差するアイデンティティに基づく差別から人々を保護する新しい法律が制定されました（ただし、これはAIに限るものではありません）。また、米労働省は、こうしたツールの利用が拡大する中、雇用主が包括的雇用を促進するためのフレームワークを作成しています。
ワシントン大学情報学科の博士課程に在籍するKyra Wilson氏は、AI採用ツールがさまざまな職業や社会グループをどのように差別している可能性があるかを調査することに興味を持っていました。最近、彼女は554通の履歴書と571通の職務経歴書を、性別や人種が異なるように名前を変えて調査しました。「私たちは、これらのツールが特定の候補者に不当に不利益をもたらす可能性があるかどうかを確認したかったのです」とWilson 氏は言います。
研究者らは、Salesforce社の3つのオープンソースLLM、Contextal AI、Mistral AIをテストしました。その結果は驚くべきものでした。経験や教育プログラムなどの資格に関する管理にもかかわらず、このモデルでは、白人に関連する名前の候補者を85％の割合で好意的に評価し、女性に関連する名前の候補者を11％の割合でしか好意的に評価しなかったということです。そして、モデルは既存の社会的偏見を再現しているだけでなく、新しいパターンを導入していることもわかりました。
「使用したモデルは専門分野に固有のデータセットで微調整されていなかったので、白人や男性に好意的な評価を下す社会全体のバイアスが、通常は白人や男性が一般的ではない職種でも見られました」とWilson氏は言います。「これらのモデルを大規模に使用すると、社会の雇用パターンをネガティブな方向に変えてしまうかもしれません」。
交差性に関するバイアス（この場合は、人種と性別の重複）も結果に見られました。特に黒人男性では、最大100％のケースで不利な評価を下されていました。「交差性は研究の重要な部分でした。なぜなら、人々が現実生活でどのように差別されているかをよりよく表しているからです」と同氏。「人々は性別や人種などの特性を単独で認識しているわけではないので、単独で研究したとしても、これらのシステムの真の社会的影響の全体像が必ずしも得られるとは限りません」
Wilson氏の研究では、名前からわかるシグナルを調査するにとどまりましたが、現実の世界では、人々は受賞した賞や、住んでいた場所、さらには履歴書に使っている言葉を通して自分の身元を伝えている可能性があると指摘しました。これらすべての要素は、AIの評価方法に影響を与える可能性がります。多くは優秀な候補者を見分けることにも関連しているため、レビュー中に迂闊に削除すると重要な情報まで削られてしまいます（名前の場合もそうでしょう）。
「これらの要素が交差するアイデンティティーをどのように示すのか、それがAIの評価にどのような役割を果たのかを詳しく知ることは、研究者やモデル開発者にとって重要な次のステップです」とWilson氏は語ります。
結局のところ、データはこれらのAIモデルを構築するための基盤です。そして、IBMシニア研究科学者Moninder Singh氏によると、暗黙か明示的か、歴史的なものか社会的なものかを問わず、ほとんどのバイアスがデータに入り込んでいます。どのような種類のAIツールであれ、バイアスを軽減する最も効果的な方法は、LLMのトレーニング段階で（そして場合によっては、その後の微調整の段階で）早期にこれらの問題に対処することでしょう。
Singh氏は、採用担当者が使用するようなAIベースのツールを構築しているほとんどの組織では、バイアスへの対処が基本的なレベルでは必ずしも実現可能ではないと説明しています。企業が独自のLLMをトレーニングするリソースを持っていることはほとんどなく、通常はOpenAIのGPTやGoogleのPaLMなどの事前トレーニング済みモデルを利用し、特定のユースケースに合わせて微調整しています。しかし、この微調整は限界に達しているとSingh氏は言います。実際には、企業はLLMを特定のデータセットに合わせて調整することで、バイアスの軽減はデータレベルで行われることが多く、データセットはアクセス可能なデータによって形成されます。
「採用といった特定のタスクに関連する膨大な量のデータを使用してベスト・プラクティスやファイン・チューニングを行っても、システムを実際に適用すると、バイアスが依然として表示されるはずです」とSingh氏は言います。
アウトプットのレベルでは、企業は発生したバイアスをリアルタイムで検知して軽減するためのストラテジーを実施できます。たとえば、AI採用ツールを使用して最終候補者のリストを生成する場合、企業がこれらの候補の公正さを評価することが、ニューヨーク市の新しい法律では義務付けられています。バイアスが検知された場合（あるグループが他のグループよりも一貫して低ランクになっているなど）、開発者はトレーニング・データを改良するか、後処理技術を使用して推奨事項を再重み付けし、モデルを調整できます。
後処理の手法を使用することで、システム全体の性能に悪影響を及ぼすことなく、スコアやランキングを調整して公平性を高めることもできます。バイアスの検知と軽減のためのオープンソース・ツールキットであるIBMのAI Fairness 360のようなツールは、まさにそのための一連の手法を提供します。IBMはまた、 Granite Guardian 3.0のようなモデルを用いたバイアス検出にも取り組んでおり、AI生成コンテンツにおけるバイアスリスクを特定するよう微調整されています。
これらのモデルは、意思決定の説明を生成し、それらの説明にバイアス指標が出現するかどうかをチェックすることで、アウトプットを評価するために使用できます。同様に、IBMのwatsonx.governanceツールキットは、watsonxプラットフォーム上に展開されたバイアス検知を含む生成モデルのガバナンスを可能にします。そして、IBMのSocialStigmaQAベンチマークは、従来のバイアステストでは見過ごされがちだが、採用のようなデリケートなアプリケーションでは重要な意味を持ちうるスティグマ（メンタルヘルスや薬物使用など）に関連するバイアスについて、LLMをテストします。
「採用ツールなどのAIベースのシステムの開発者はバイアスを排除するために最善の努力をしましたが、すべてのエンドユーザーに固有の状況に対処することは不可能であることに注意することが重要です。特にエンドユーザーが積極的に関与しない場合、そのレベルでバイアスを拡大したり導入したりしないように、十分な注意を払うことが必要です」とSingh氏は言います。「採用ツールのエンドユーザーも同様に、あらゆるステップでダイバーシティーを実現する必要があります」
