AIシステムが不正になると、その成果はきれいなものではありません。機密情報の漏洩、攻撃的なメッセージ、そしてある例では致命的な塩素ガスのユーザーフレンドリーなレシピなど、これらはすべてチャットボットの失敗が原因とされています。 1
こうした事例により、人間の価値観や倫理原則をAIモデルにエンコードする行為であるAIアライメント がさらに重視されるようになりました。しかしAI研究者は、今日の機械学習テクノロジーの倫理的影響への取り組みにとどまりません。彼らはまた、明日の倫理的問題、特にエージェント型人工知能がもたらす問題に対処するために取り組んでいます。
AIエージェントとしても知られるエージェント型AIは、従来のAIモデルと比較して、倫理的なジレンマの拡張セットを提示する自律型AIテクノロジーであると、IBM ResearchのIBMフェローであるKush Varshney氏は言います。
「AIエージェントは人の監督なしで動作するため、信頼性の問題がさらに増えます」と、Varshney氏は言います。「機能という面からの進化だけでなく、意図しない結果という面でも進化するでしょう。安全性の観点からは、作業を待つのは避けたいものです。テクノロジーが開発されるにつれて、安全対策を構築し続けることが必要です。」
AIエージェントの安全対策について確認する前に、AIエージェントとは何か、つまり人間や別のシステムに代わって自律的にタスクを実行できるインテリジェントなシステムやプログラムとは何かということを正確に理解することが重要です。これらの自律システムは、自然言語処理のような大規模言語モデル(LLM)機能を備えていますが、意思決定、問題解決、アクションの実行、外部環境との対話も行うことができます。
このような機能により、AIエージェントは、ユーザーのプロンプトに対するテキスト応答を作成するだけでなく、現実世界でタスクを実際に実行することができます。
たとえば外部とのやり取りは、関数呼び出しとも呼ばれるツール呼び出しを通じて行われます。これは、エージェントがタイムリーな情報、例えばLLMでは通常は入手できない情報を必要とするタスクに取り組むことを可能にするインターフェースです。そのため、サプライチェーンのエコシステムにデプロイされたAIエージェントは、必要に応じて生産スケジュールを変更し、サプライヤーに発注することで、インベントリーを最適化するための自律的な作業ができます。
エージェント型AIのような高度な人工知能となると、自律性はどれくらい過剰なのでしょうか。この質問に答えるために、ペーパークリップ・マキシマイザー・シナリオを見てみましょう。哲学者Nick Bostromによる有名な思考実験は、まだ仮説に過ぎないAIスーパーインテリジェンス(ASI)という概念に焦点を当てています。ASIは、人間の知性を超える知的範囲を持つAIシステムです。Bolstromは、このようなシステムでペーパークリップの製造が他のすべての目的よりも優先されたら何が起こるかを考えています。
提案されているシナリオでは、このシステムは最終的に地球のすべてのリソースをペーパークリップ製造に費やします。これは、生命が無数の小さな金属製事務用品に依存しているわけではないため、非倫理的な結果となります。最初の質問に戻ると、この仮定のケースでは、問題となっているAIシステムの自律性が強すぎるとはっきり結論付けることができます
幸いなことに、今日のエージェント型AIはASIと同じではないため、致命的な欠陥のある機械倫理に起因するペーパークリップのディストピアが発生する可能性は依然として低いということです。Varshney氏は、「距離は近づいていますが、まだ離れています」と言います。
しかし、AIの自動化に起因する他のリスクは、より差し迫ったものです。可能性は、人工エージェントが不適切なEメールを送信することから、ユーザーが意図していなかった方法でマシンを停止して起動することまで多岐にわたると、Varshney氏は言います。自律型AIの行動に対する懸念は深刻であり、米国国土安全保障省(DHS)は2024年4月に、AIの安全性とセキュリティのガイドラインに関する報告書の中で、通信、金融サービス、医療などの重要なインフラストラクチャー・システムに対するリスクのリストに「自律性」を含めました。2
既存のAIガバナンス・ソリューションは、AIエージェントの倫理をサポートするのに役立ちます。組織はすでにソフトウェア・ツールによって、意思決定プロセスを歪める可能性のあるトレーニング・データセットやアルゴリズムから生じるバイアスを監視、評価、対処できるようになりました。これらのツールは、開発者や企業が、使用しているAIツールがさまざまな企業や官公庁・自治体で広く採用されている最新の信頼できるAIの基準、説明可能性の目標、責任あるAIの原則を満たしていることを確認するのにも役立ちます。
しかし、企業がエージェント型AIをワークフローに組み込むことが増える中、研究者は自律型エージェントの不正行為を抑制し、AIテクノロジーの持続可能性を向上させるための新しい倫理的AIソリューションとストラテジーにも取り組んでいます。ここでは、確認しておく価値のあるものをいくつか紹介します。
現在、事前トレーニング済みのAIモデルは、ドメイン固有のデータに基づいてトレーニングされるようにファイン・チューニングが行われています。AI開発のファイン・チューニング段階では、モデルは倫理的価値観や倫理的配慮に合わせて調整される場合がありますが、調整にどのような規範的価値観を含めるべきかについての疑問が生じることがよくあります。結局のところ、価値観や倫理のフレームワークは企業、国または地域、利害関係者などによって異なります。
VarshneyとIBMの研究者チームは、よりコンテキストに特化したテクノロジー主導のアプローチを提案しています。アライメント・スタジオ(Alignment Studio)として知られるこのアプローチは、大規模言語モデルを、官公庁・自治体の規制や企業独自の倫理ガイドラインなど、自然言語ポリシー文書に記述されたルールや価値観に合わせるものです。
このアプローチは、IEEE Internet Computing誌に掲載された2024年9月の論文で詳述されており、モデルが政策文書から政策関連の語彙を学ぶだけでなく、価値の整合性を高めるために実際に望ましい行動をとることができるように、継続的な開発サイクルが含まれています。3
AIエージェント関連の誤動作の原因に、ユーザー側での具体的な指示の欠如やエージェントによるユーザーの指示の誤解などがあります。このような「誤解」により、エージェントは間違ったツールを選択したり、不適切な方法や有害な方法で使用したりする可能性があります。これは関数呼び出しのハルシネーションとして知られています。
幸いなことに、 関数呼び出しの改善 は競争の激しい取り組みとなっており、LLMがAPIをどの程度適切に呼び出すかを測定するいくつかのベンチマークが作成されています。最近の改善点の1つは、IBM Granite Guardianの最新リリースである Granite Guardian 3.1の新機能によるものです。Granite Guardian 3.1は、特にビジネス向けに設計されたIBMのGranite言語モデル・ファミリーの一部です。このモデルは、意図しない結果が発生する前に、エージェントによる関数呼び出しのハルシネーションを検知できます。「検出ツールは人間の言語での説明から呼び出された関数まで、あらゆる種類の間違いをチェックします。」と、Varshney氏は説明します。
悪意のある行為者はすでに生成AIを利用して、リアルなAI生成音声、動画、画像で人物に似せることができるディープフェイクを、ソーシャルメディアに拡散させています。一方、詐欺師はAI生成のテキストを活用して、より洗練されたフィッシング Eメールを作成しています。そして、エージェント型AIの力は、これらの危険な傾向をさらに悪化させる可能性があります。
「AI生成のアウトプットは、人間の議論と同じくらい説得力があるという証拠が増えています」と、Google DeepMindの研究者は2024年4月のレポートで警告しています。将来、悪意のある行為者は自律型AIを使用して、「ユーザーの感情や脆弱性を悪用して、誤情報コンテンツを超精密な方法でユーザーに合わせて調整する」ことができるようになるだろう、と彼らは言います4。
これまでのところ、AI搭載の詐欺を検知するために設計されたツールの性能はまちまちです。しかし、研究者はAI検知の改善という課題に継続して進んでおり、最も有望な成果の一部は最新世代のAIテキスト検知器に起因しています。5
たとえば、香港中文大学とIBM Researchの研究者によって作成されたRADARと呼ばれる新しいフレームワークは、2つの異なる調整可能な言語モデル間の敵対的学習を使用してAIテキスト検出器をトレーニングし、従来のAIテキスト検知ソリューションと比較して優れた性能を実現します。6
AI検知技術の開発が進む中、IBMなどのテクノロジー企業も、ディープフェイクの配布を規制し、悪質な行為者に責任を負わせるための法律を制定するよう、政策立案者に対して呼びかけています。7
エージェント型AIに起因する倫理問題の多くは不正行為に関連していますが、自律型AIテクノロジーが期待どおりに機能する場合でも、他の倫理的懸念が生じます。たとえば多くの議論は、人間の労働者を置き換え、暮らしを排除するOpenAIのChatGPTのようなAIアプリケーションに焦点を当てています。
しかし、AIが人間の労働者を(代替するのではなく)補強するためにデプロイされた場合でも、従業員は心理的な結果に直面する可能性があります。人間の労働者が、AIエージェントが自分たちよりも仕事をするのが得意だと認識するとエクスペリエンスが低下する可能性があると、Varshney氏は説明します。「あなたの専門知識のすべてがもはや役に立たないと思われる立場にある場合、つまりAIエージェントに従属するような立場にあると、尊厳を失うかもしれません。」と、彼は言います。 AI倫理に関する一部の議論では、このような尊厳の喪失は人権侵害とみなされます。8
2024年8月に発表された研究論文では、Varshneyと数人の大学を拠点とする研究者が、この尊厳への懸念に対処するための組織的アプローチである、敵対的協力を提案しました。このモデルでは、最終的な推奨事項を提供する責任は人間ですが、AIシステムは人間の作業を精査するためにデプロイされます。
「最終的に決断を下すのは人間であり、アルゴリズムはこの役割に対抗するために設計されているのではなく、人間のエージェントの推奨を尋問し、その結果、より鮮明にするために設計されている」と研究者たちは書いている9。このような敵対的なコラボレーションは「人間の尊厳を維持できるものを組織化する方法です」と、Varshney氏は言います。
1「Supermarket AI meal planner app suggests recipe that would create chlorine gas.」The Guardian。2023年8月10日。
2「Mitigating Artificial Intelligence (AI) Risk: Safety and Security Guidelines for Critical Infrastructure Owners and Operators.」US Department of Homeland Security。2024年4月。
3「Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations.」IEEE Internet Computing、Volume 28、Issue 5、2024年9月~10月。
4「The Ethics of Advanced AI Assistants.」Google DeepMind。2024年4月19日。
5「Robustness of generative AI detection: adversarial attacks on black-box neural text detectors.」International Journal of Speech Technology。2024年10月16日。
6「RADAR: Robust AI-Text Detection via Adversarial Learning.」Advances in Neural Information Processing Systems。2023年12月。
7「Senators Coons, Blackburn, Klobuchar, Tillis introduce bill to protect individuals’ voices and likenesses from AI-generated replicas.」Chris Coons。2024年7月31日。
8「An Overview of Artificial Intelligence Ethics.」IEEE。2022年7月28日。
9「When Trust is Zero Sum: Automation’s Threat to Epistemic Agency.」arXiv.org。2024年8月16日。
IBM watsonx.governanceを使用すれば、生成AIモデルをあらゆる場所から管理したり、クラウドまたはオンプレミスにデプロイしたりできます。
IBMコンサルティングを活用して、EUのAI法に備え、責任あるAIガバナンスに取り組みましょう。
統合されたGRCプラットフォームを利用して、リスクと規制順守の管理を簡素化しましょう。