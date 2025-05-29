2019年初頭、人工知能の世界では小さいながらも重要な変化が起こりました。この分野の主要プレーヤーであるOpenAIは、かつてのオープンな研究重視から徐々に離れ始めました。時間が経つにつれて、データセットへのアクセスは狭まり、トレーニング方法に関する詳細を見つけることがますます困難になり、内部作業はより閉鎖的になりました。当時はありふれた方向転換と思われていたものが、AIにとっての転換点となり、世界中で研究が共有、開発、議論される方法を大きく変えることになりました。
「データセットの可視性はもうありません」と、この分野の長年のオブザーバーであり、MITテクノロジー・レビューの元シニア・エディターであるKaren Hao氏は、IBM Thinkのインタビューで語っています。
Hao氏の新刊『Empire of AI（AIの帝国）』は、生成AIの発展を内部から記録し、OpenAIのような企業の台頭の経済的・政治的動機だけでなく、科学そのものを再定義した静かな技術的決定も追っています。「OpenAIでさえ、自社のトレーニングセットに何が入っているかを常に把握しているわけではありません。データは大きすぎて手作業で監査できません。」
その告白は、一般の観察者にとっては些細なことに聞こえるかもしれません。しかし研究者にとって、モデルのトレーニングに使用されるデータを確実に特徴付けたり複製したりできないことは、その分野の基盤そのものを揺るがすことになります。何十年もの間、機械学習は再現性というシンプルな科学的原則に依存してきました。同じ条件下でトレーニングされた場合、モデルは同じように動作するはずです。しかし、今日の大規模で整理されていないデータセットでは、それらの条件は多くの場合把握できません。
ほとんどの経験科学では、再現性は厳密さを測るリトマス試験となります。再現できない化学実験ほど疑わしいものはありません。追跡不可能なインプットを伴う医療試験は、査読を通過する可能性が低くなります。人工知能において、再現性は従来、研究者がモデルアーキテクチャとトレーニングパラメータだけでなく、それらのモデルのトレーニングに使用した正確なデータセットも公開することに依存してきました。これらのデータセットは、画像、音声録音、テキスト文書のコレクションであるかどうかに関係なく、モデルが知っていることと、それらを新しい入力にどのように一般化するかの基礎を形成します。
2010年代初頭には、このオープンなモデルが標準でした。教育機関向けの研究室と企業の研究者は同様にトレーニング コーパスを共有し、前処理手順を説明し、共通の標準に照らしてベンチマークを実行しました。しかし2020年までに状況は変わりました。OpenAI のような企業が商業的優位性を求めてより積極的に競争し始めると、データセットを共有する慣行は好まれなくなりました。
この変化は、知的財産だけに留まりませんでした。Hao氏が指摘するように、現代のトレーニングデータセットはインターネットから収集された数千億のトークンで構成されることが多く、その膨大な量のために、それらを徹底的に文書化することは事実上不可能です。企業はデータセットを収集するために、自動スクレイピングおよびフィルタリング ツールに頼り始めました。しかし、これらのツールは微妙な問題を検知することができず、トレーニング プロセスに新たなレベルの不確実性をもたらしました。
スタンフォード大学の研究者が、広く使われているLAION-5B画像データセットを監査したところ、明らかになった事例がありました。公開されているにもかかわらず、このデータセットには、児童性的虐待に関する検証済み資料またはその疑いのある資料が何千件も含まれていました。これが発見されたときは、そのデータセットが自由に流通し、商用画像ジェネレータのトレーニングにすでに使用され始めてから数年経っていました。この出来事は警鐘となりました。オープンデータセットにこれほどの危険な情報が埋め込まれている可能性があるなら、非公開データセットには何が潜んでいるのでしょうか。
「もはやテストとトレーニングの分割を保証することすらできません」とHao氏は機械学習の基本的な方法論の実践について説明します。
一般的な AI の設定では、データセットは 2 つの部分に分かれています。1 つはモデルのトレーニングに使用され、もう 1 つはモデルのパフォーマンスのテストに使用されます。これは、これまで見たことのないデータに対するモデルの精度を測定するのに役立ちます。しかし、データ・セットが大規模で不透明なうえ、その内容が事実上不明な場合、重複した内容が両方のセットに表れ、評価が汚染され、性能が膨れ上がるリスクが生じます。
その結果は検証ではなく信仰にますます依存するようなっているようにも見えます。「科学的というより錬金術的なものになってしまいました」とHao氏は言います。「モデルに多くの計算とデータを投げ入れて、何かが生まれることを期待しているのです。」
誰もが拡張性を必要としているわけではありません。Hao氏が説明するように、別の道筋をたどった研究者たちからもう一つの微妙な動きが出てきました。彼らは、より大きなデータベースを目指すのではなく、厳選された少量のデータセットを求めるようになりました。重要なのは、彼らがどれだけのデータを持っていたかではなく、そのデータが言語のニュアンス、人間の知覚の範囲、公平性の要請をどのように捉えていたかです。
業界はさらに多くのことを求める一方で、その過程で見過ごされていたものはなかったかという疑問も出てきました。たとえば、MozillaのDeepSpeechは、ユーザーからの完全な同意を得て提供されたオーディオ クリップに基づいて構築された音声認識プロジェクトでした。各クリップは手作業で確認され、タグ付けされ、音声、アクセント、言語パターンの明瞭さと多様性を確保するためにデータセットを改良することに多大な労力が費やされました。
同様に、Hugging Faceの指導のもと世界的な研究コンソーシアムによって開発された BLOOM言語モデルは、言語的、地理的、トピックの多様性に配慮して収集された公開データセットでトレーニングされました。すべてのソースが文書化され、コミュニティの監査も招待されました。不透明な基盤モデルとは異なり、BLOOMのトレーニング方法はわかりやすいものでした。
しかし、そのような取り組みは次第に影を潜めています。Hao氏は、現在では業界の主流の論理が規模重視に偏っていると述べています。大規模なデータセットでトレーニングされた大規模なモデルは、タスク固有の調整を行わなくても、複雑な推論やコード生成などの新たな特性を示す傾向があります。そのため、チームはデータの慎重な設計を放棄し、できる限りすべてをスクレイピングするようになります。
OpenAIにおけるスケール・ファーストの考え方は、単なる技術的な結論ではありませんでした。それは、たとえ非正統的であったとしても、リーダーが共有していた一貫した信念体系の成果だったとHao氏は指摘します。彼女は、OpenAIのチーフサイエンティストであるIlya Sutskever氏をディープラーニング絶対主義者だと評しています。彼は、十分な規模のニューラル・ネットワークに十分なデータが供給されれば、最終的には人間のような知能を発達させるだろうと信じていました。一方、OpenAI の CEO である Sam Altman 氏は、起業家として人工知能にアプローチし、指数関数的な拡張が支配への最速の道であると考えていました。OpenAI社長のGreg Brockman氏は、その拡張を実現することに注力したエンジニアでした。
この原則を可能にしたアーキテクチャが、2017 年に初めて導入されたニューラル・ネットワークの一種であるトランスフォーマーです。トランスフォーマーは、文内の単語間の関係を長距離追跡できるため、テキストなどの一連のデータのモデリングに優れています。重要なのは、効率的にスケールアップできることです。レイヤーとパラメータを追加すればするほどパフォーマンスが向上します。
OpenAIの研究チームは、十分な計算能力を持つ大規模なデータセットでトランスフォーマーをトレーニングすれば、手作業の機能、記号推論、モジュラー設計の必要性を回避できることに気づきました。彼らの見解では、インテリジェンスはデータから生まれるということになります。
GPT-4のようなモデルをトレーニングするために、OpenAI はアイデアだけでなくインフラストラクチャーも必要としていました。この規模の言語モデルは、数万台のグラフィックス処理ユニットのクラスターを必要とします。当初は3次元画像をレンダリングするために設計されたGPUは、ニューラル・ネットワークの中心における行列の乗算に非常に役立つことが証明されています。しかし、それらをまとめて統合システムとして動作させるには、カスタム ソフトウェアとハードウェアのオーケストレーションが必要でした。
OpenAI のエンジニアは、モデルを断片に分割し、複数のチップに分散して並行してトレーニングできる技術を開発しました。彼らは、部分的なトレーニング実行を保存するためのチェックポイント プロトコルを作成し、壊滅的な障害のリスクを軽減しました。さらに、マシン間で更新を同期するためのカスタム通信プロトコルを構築しました。これらは華やかな進歩ではありませんでしたが、不可欠なものでした。
「これまで、10,000個のチップを使ってトレーニングした人は誰もいませんでした」とHao氏は言います。「彼らはそれをリアルタイムで理解しなければなりませんでした。」
これらの進歩により、競合他社よりも迅速かつ効率的にモデルをスケールアップできるようになりました。しかし同時に、彼らは新たな種類の秘密主義の誕生にも貢献しました。OpenAIは、その画期的な進歩の背後にある詳細の多くを公開しませんでした。情報を開示しすぎると、競争上の優位性を失うことになると同社は主張しました。
2024年までに、ほとんどの大手テック企業は追いついていました。IBM、Google、Meta、Amazon、AnthropicおよびMistralなどの新規参入者は、同様のトランスフォーマーアーキテクチャーとトレーニング手法を使用して大規模な言語モデルを作成しています。多くの場合、人間のフィードバックによる強化学習が使用されました。これは、人間がモデルの出力の品質を評価し、人間の好みに合わせてモデルを微調整できるようにする方法です。
部外者にとっては、これらのシステムの違いを見分けることは難しくなりました。アプリケーション開発者は、必要に応じてプロバイダーを切り替えることができるように、バックグラウンドで任意のモデルと連携できるインターフェースの設計を開始しました。今では、インテリジェンスのわずかな違いよりも、料金体系、遅延、アップタイムの方が重要になっています。
「今や誰もが特定のモデルに依存しないように努めています」とHao氏は言います。「OpenAIはもはや優れたモデルを独占しているわけではなくなっています。」
規模が差別化要因ではなくなったため、企業は別のパラダイムであるエージェンシーに投資し始めました。人工知能において、エージェンシーとは、システムが主導権を握り、長期間にわたって持続し、目標に向かって行動する能力を指します。エージェントはプロンプトに反応するのではなく、アクションを計画し、成果を監視し、行動を調整します。
そのためには新しい機能が必要でした。モデルは、セッション間でメモリを維持し、サードパーティのツールと統合し、明示的なプロンプトなしに決定を下す必要がありました。その目標は、受動的なチャットボットから能動的なコラボレーターに移行することでした。
OpenAIは長い間、映画『Her』に触発されてきました。そこではユーザーが自分のニーズにシームレスに適応するAIアシスタントに恋をする様子が描かれています。このようなシステムを構築するには、知性だけでなく存在感も開発する必要があります。Hao氏は、OpenAI の社内チームが製品と研究の領域全体でこの夢を追求してきたと指摘します。
「モデルに記憶、永続性、自律性を与えなければ、そのようなアシスタントを構築することはできません」と彼女は言います。
しかし、エージェントを真に効果的なものにするためには、OpenAIにはアルゴリズム以上のものが必要でした。そのためには、新しい種類のデータと、それを収集する新しい方法が必要でした。かつてはトレーニング用データの豊富な供給源であったインターネットも、現在では合成コンテンツで飽和状態になっています。現在、オンラインで利用できるドキュメントの多くは、以前のモデルによって生成されたものです。
これが原因で、オンライン トレーニングの価値がますます低下するというフィードバック ループが生まれます。この悪循環を断ち切るために、企業はより親密なデータ収集に目を向け始めています。Hao氏は、OpenAIが、モバイルインタラクションから音声会話、環境コンテキストまで、ユーザーの行動をリアルタイムでキャプチャできるカスタムデバイスを模索していると言います。
「オンラインには、AIによって生成されたコンテンツが多すぎます」とHao氏は指摘します。「高品質のデータが必要な場合は、人から直接データを入手する必要があります。」
AIによって生成されたコンテンツの増加に伴い、同意、監視、コントロールに関する困難な問題が生じているとHao氏は言います。人々は本当に自分のデータ収集を拒否することを選べるのでしょうか。そして、彼らは自分たちの言葉、画像、行動に基づいて訓練されたモデルに対して口を出す権利を持てるのでしょうか。
Hao氏にとって、答えはテクノロジー楽観主義や悲観論ではなく、透明性にあります。彼女は、人工知能が人類を救うと信じる「ブーマー」や、人工知能が人類を破滅させると恐れる「ドゥーマー」など、AIに関する支配的なイデオロギーには賛同しません。
「私は説明責任を重視する立場です」と彼女は言います。「これらのシステムは制度的影響力を反映しています。私たちはそれらがどのように作られ、誰が恩恵を受けるのかを知る必要があります。」
企業は、自社のモデルがどのようにテストされているか、どのようなデータを使用しているか、そして成果をどのように解釈しているかを説明する必要がある、とHao氏は言います。つまり、他の人が詳しく調べられるように、間違いを記録して発見したことを共有する必要があるということです。
こうした開示性がなければ、AI は強力だが説明責任のない独自のブラックボックスになってしまう危険性があるとHao氏は警告します。
