人類は古来から考える機械を作ることを夢見てきました。この長年の野望は、プログラム可能なデバイスを作り上げようとする民間伝承や歴史上の試みにあらわれている他、フィクションも知的機械の可能性を探求し、そのメリットと危険性を想像してきました。OpenAI社がGPT(生成的事前学習済みTransformer)の最初のバージョンをリリースしたとき、この古代の夢の実現に向けた重要な一歩として、急速に広い注目を集めたのも不思議ではありません。
GPT-3の登場は、その前例のない規模の大きさから、AIにおける画期的な瞬間となりました。1,750億のパラメーターを備え、大規模なファイン・チューニングを行わずとも幅広い自然言語タスクを実行できるようになりました。このモデルはビッグデータを使用してトレーニングされたため、人間のようなテキストを生成し、会話に参加することができます。またフューショット学習を実行する能力も備え、汎用性が大幅に向上し、チャットボットやバーチャル・アシスタントなどの商用AIアプリケーションでの有用性が示されています。
今日、AIはSNSから業務プロセスに至るまで、日常生活のさまざまな側面にますます組み込まれつつあります。テクノロジーの向上につれてその影響力は拡大し続けています。テクノロジーがどこへ向かいうるのかを理解するには、どのようにして今に至ったのかを理解することが役立ちます。 AIにおける主な発展の歴史をご紹介しましょう。
ジョナサン・スウィフトの幻想小説『ガリバー旅行記』には、学者が新しいアイデアや文章、書物を生み出すのを助けるために使われる大型の機械仕掛け「エンジン」のアイデアが紹介されています。
学者が機械のハンドルを回すと、言葉が刻まれた木のブロックが回転します。この機械は、言葉をさまざまな配置で組み合わせることによって、新しいアイデアや哲学的な論説を生み出すとされています。
「芸術や科学を学ぶ通常の方法がどれほど骨の折れるものかは誰でも知っている。ところが彼の発明によって、最も無知な人であっても手頃な価格と多少の肉体労働で、哲学、詩、政治、法律、数学、神学などの本を、天才や学問の助けなしに書けるかもしれない」。
- ジョナサン・スウィフト『ガリバー旅行記』(1726年)
スウィフトのこの風刺は、現代のAIで実現したアルゴリズムテキスト生成の概念を先取りするものでした。 AIモデルは、スウィフトの架空のエンジンが意図しているものと同様に、基礎となるアルゴリズムに基づいて単語とアイデアを組み合わせることで、一貫したテキストを生成することができます。
スペインの技術者であったレオナルド・トーレス・ケベードが、パリの万国博覧会で世界初のチェスマシン「エル・アヘドレシスタ」のデモンストレーションを行いました。電磁石を使用した完全自動式のエル・アヘドレシスタは、キングとルーク対キングの単純なチェスのエンドゲームを自動的にプレイすることができました。この機械は最初の設定の後は人間の介入を必要とせず、ルールに沿ったチェスの手を自律的に指し、人間の対戦相手がルールに違反する手を指した場合にはエラーのシグナルを出しました。機械の側が勝てる配置であれば、人間の対戦相手に対して確実にチェックメイトをかけることができました。
『R.U.R』というタイトルの劇がロンドンで上演されました。カレル・チャペックによるこの戯曲は、「ロボット」という単語が初めて英語で使われた作品です。チェコ語のrobotaという単語は、封建制下で農民が行っていた義務的な、あるいは強制的な労働と結びつくものです。「ロボット」という用語は、劇の成功後すぐに国際的に知られるようになり、作業用に作られた機械的・人工的な存在を指す標準的な用語となりました。チャペックのロボットは有機的なものでしたが、やがてこの言葉は単調な非熟練労働を行うように設計された人型機械と結びつけられるようになりました。
アイオワ州立大学の物理学・数学教授、ジョン・ヴィンセント・アタナソフと大学院生のクリフォード・ベリーが、アイオワ州立大学で650米ドルの助成金を受けてアタナソフ&ベリー・コンピューター(ABC)を開発しました。ABCコンピューターは最初期のデジタル電子コンピューターの1つであり、アメリカのコンピューターサイエンスの分野における画期的な出来事として知られています。
完全に稼働して広く使われることはありませんでしたが、ABCは現代的なコンピューティングの発展の基礎となるいくつかの重要なコンセプトを取り入れていました。
10進法に頼っていたそれまでのコンピューティング・デバイスとは異なり、ABCはデータを表すために2進法(1と0)を使用しており、これは以降のコンピューターの標準となりました。また、ABCは機械システムや電気機械システムの代わりに電子回路を計算に使用した最初のコンピューターの1つでもあり、より高速で信頼性の高い計算を実現していました。さらにデータ・ストレージ(メモリー)と処理装置を分離しており、この原則は現代のコンピューター・アーキテクチャーで今なお採用されています。データ保管にはコンデンサを使用し、最大30の連立方程式を処理することができました。
ABCはロジックのオペレーションに約300本の真空管を採用していたため、以前の機械式計算機よりもはるかに高速でした。かさばって故障しやすいものの、電子コンピューティングにおいて真空管の使用は重要な発展でした。ABCの重量は700ポンドを超え、最大29の連立1次方程式を解くことができました。
ウォーレン・S・マカロックとウォルター・ピッツが、Bulletin of Mathematical Biophysics誌上で「A Logical Calculus of the Ideas Immanentin Nervous Activity」(神経活動に内在するアイデアの論理的計算法)を発表しました1。これは神経科学とAIの両方の歴史において大きな影響を与えた研究の1つです。この論文は、脳が計算システムとして把握できるというアイディアの基礎を築き、現代のAIにおける重要ななテクノロジーである人工ニューラル・ネットワークの概念を初めて導入したものです。このアイデアは特にニューラル・ネットワークとディープラーニングを通じて、脳に似た機能とプロセスをシミュレートするコンピューター・システムの着想源となりました。
英国の数学者アラン・チューリングの画期的な論文『計算する機械と知性』がMind誌に掲載されました2。この論文はAIにおける基本文献であり、「機械は考えることができるのか」という問題に取り組むものです。チューリングのアプローチは、現在ではチューリング・テストと呼ばれる「模倣ゲーム」を通じて、思考機械の性質とその知性の測定方法に関するその後の議論の基礎を確立しました。チューリングは思考実験を導入し、「機械は考えることができるのか」という質問に直接答えることは避けました。その代わり、問題を「機械は人間と見分けのつかない知的行動を示すことができるか」という、より具体的で実用的な形式で表現したのです。
チューリング・テストはAIにおける中心的な概念となり、人間の会話や行動を説得力を持って模倣する機械の能力を評価することで、機械の知能を測る方法のひとつとなっています。
マービン・ミンスキーとディーン・エドモンズが最初の人工ニューラル・ネットワークを構築しました。Stochastic Neural Analog Reinforcement Calculator(SNARC)は、特に強化学習 によって人間の脳における学習プロセスをモデル化する初期の試みです。確率的ニューラルアナログ強化計算機(SNARC)は、特に強化学習によって人間の脳における学習プロセスをモデル化する初期の試みです。
SNARCは、迷路を進んでいくネズミの行動をシミュレートするように設計されています。基本的なアイデアは、動物が報酬や罰を通して学習を進めていく、つまりフィードバックに基づいて時間の経過とともに行動を調整する方法を機械に模倣させるということでした。SNARCはアナログコンピュータで、3000本の真空管とシナプスウェイを合わせたネットワークを使用し、40個のニューロンに似たユニットをシミュレートしていました。
数学者でありコンピュータ科学者でもあるアレン・ニューウェルと政治科学者のハーバート・A・サイモンが、”Logic Theorist”や”General Problem Solver”などの影響力のあるプログラムを開発しました。これらは人間の問題解決能力を、コンピューティング手法を用いて模倣した最初のプログラムの一例です。
ダートマス大学のジョン・マッカーシー、ハーバード大学のマービン・ミンスキー、IBMのナサニエル・ロチェスター、ベル電話研究所のクロード・シャノンが提出したワークショップ提案書”A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence”(人工知能に関するダートマス夏季研究プロジェクト提案書)の中で、「人工知能」(artificial intelligence)という用語が初めて作られました3。
その1年後、1956年7月と8月に開催されたこのワークショップは、一般にAIの急成長分野が誕生したとされる公式の誕生日とされています。
ジョン・マッカーシーがプログラミング言語Lispを開発しました4。LispはLISt Processingの略で、アルゴリズムと数学的論理の形式化に関するマッカーシーの研究を元にして開発されたものです。Lispには特に象徴的な情報を処理できるプログラミング言語を使いたいというマッカーシーの希望が色濃く表れていました。Lispはその後、AI研究で使用される最も人気のあるプログラミング言語となります。
アーサー・サミュエルが、チェッカーをプレイする性能を時間の経過とともに向上させるコンピュータ・プログラムを開発し、機械学習の概念を開拓しました。サミュエルが実証して見せたのは、あらかじめ定義されたルールに従い、経験から「学習」し、最終的にはプログラマーよりもうまくゲームができるように、コンピュータをプログラムすることが可能だと言うことでした。彼の業績は、機械に体験を通じた改善を教えるための大きな一歩であり、その過程で「機械学習(machine learning)」という用語も生まれました。
オリバー・セルフリッジが論文『パンデモニウム』を発表しました5。セルフリッジのパンデモニウム・モデルは、さまざまな「デーモン」(プロセッシングユニット)が連携してパターンを認識するというシステムを提案するものでした。デーモンは事前にプログラムされていないデータの特徴を識別することを競い、教師なし学習をシミュレートします。セルフリッジのこのモデルはパターン認識への初期の貢献であり、その後のマシン・ビジョンとAIの開発に影響を与えています。
ジョン・マッカーシーが、論文”Programs with Common Sense”(常識を持ったプログラム)の中でアドバイス・テイカーの概念を紹介しました6。このプログラムは形式的な論理で文を操作し問題を解決することを目指しており、AIにおける推論の基礎となりました。マッカーシーは、長期的には人間と同じくらい効果的に適応・学習できるAIを開発することを目指し、指示を理解し、常識的な知識で推論し、経験から学習できるシステムを構想します。このコンセプトは、知識表現と自動推論に関する初期の研究の形成に役立ちました。
哲学者のヒューバート・ドレイファスが『錬金術と人工知能』7 を発表し、人間の心の働きはコンピューターとは根本的に異なるという主張をしました。ドレイファスは、人間の直感と理解を再現するという課題により、AIの進歩には限界があると予測しています。ドレイファスの批判はAIの哲学的・実用的な限界に関する議論に影響を与えています。
I.J. グッドが『最初の超知能機械に関する考察』を著し8、ひとたび超知能機械が開発されれば、それがさらに知能の高いシステムを開発できるので、その機械が管理可能なものにとどまれば、人類にとって最後の発明になる、という有名な主張を行いました。グッドのアイデアは、AI超知能とそのリスクに関する現代の議論を先導するものです。
ジョセフ・ワイゼンバウムがELIZA9を開発しました。これはタイピングによるインプットに自然言語で応答し、人間の会話を模倣するプログラムです。人間とコンピューターのコミュニケーションが表面的なものに過ぎないということを示すのがワイゼンバウムの意図でしたが、彼は多くのユーザーがプログラムに対して人間らしい感情を見いだしたことに驚き、AIと人間のやり取りについての倫理的な問題を提起しています。
エドワード・フェイゲンバウム、ブルース・ブキャナン、ジョシュア・レーダーバーグ、カール・ジェラッシはスタンフォード大学でDENDRALを開発しました。10 これは、仮説形成をシミュレートして有機化学者の意思決定プロセスを自動化した最初の専門家システムです。DENDRALの成功はAIの進歩を示し、システムが人間の専門家と同等かそれ以上に専門的なタスクを実行できることを示しています。
1960年代後半にSRIで開発されたShakeyは、知覚、計画、問題解決を組み合わせ、自身の行動について推論できる最初の移動ロボットでした11。1970年のLIFE誌の記事で、マーヴィン・ミンスキーは3年~8年以内にAIが平均的な人間と同じくらいの知能を達成すると予測しています。ミンスキーの野心的な予測は今となっては楽観的すぎるものでしたが、Shakeyの成果はロボティクスとAI分野のマイルストーンとなっています。
アーサー・ブライソンと何毓琦が、多段階の動的システムを最適化する手法であるバックプロパゲーション(誤差逆伝播法)を紹介しました。このアルゴリズムはもともとは制御システムのために開発されたものでしたが、多層ニューラル・ネットワークのトレーニングに不可欠なものとなりました。コンピューティング技術の進歩とともに、バックプロパゲーションは2000年代~2010年代に初めて大きな注目を浴び、ディープラーニングの台頭を可能にしました。
マーヴィン・ミンスキーとシーモア・パパートは、単一層ニューラル・ネットワークの限界を批判的に分析した『パーセプトロン:パターン認識理論への道』12を出版しました。この著作はしばしばニューラル・ネットワークへの関心を低下させた原因として非難されています。1988年版では、1960年代半ばまでにパーセプトロンを使った多数の実験が行われたにもかかわらず、理論的理解が不足していたために進歩が失速してしまったと主張しています。
テリー・ウィノグラードが画期的な自然言語理解プログラムであるSHRDLUを開発しました13。SHRDLUは平易な英語でユーザーとインタラクションして、バーチャルブロックの世界でオブジェクトを操作することができ、コンピューターが複雑な命令を理解して応答できる可能性を示すものでした。その成功は具体的な、高度に構造化された環境のみに限定されてはいましたが、自然言語処理における初期の成果です。SHRDLUの機能は、AIによるより広汎な言語理解を実現することの可能性と課題の両方を浮き彫りにするものでした。
スタンフォード大学で開発されたMYCINは、細菌感染の診断と抗生物質治療の推奨で医師を支援するために開発された最初の専門システムの1つでした14。 MYCINはルールベースのアプローチを使用して人間の専門家の意思決定プロセスをシミュレートし、医療AIシステムの開発のためのプラットフォームを作り上げました。しかし倫理的および法的な懸念から、臨床での実用化はされていません。
ジェームス・ライトヒルが英国科学研究評議会にAI研究の進捗状況に関する重大な報告書を提出し、AIはその初期の約束を達成できていないと結論付けます15。AIの分野では目立ったブレークスルーが起きていないというライトヒルの主張は、英国におけるAIに対する政府資金の大幅な削減につながりました。このレポートは、AI研究への関心と投資が低下した最初の「AIの冬の時代」16の到来を招く一因となりました。
WABOT-217は早稲田大学で開発されたヒューマノイド型ロボットで、1980年から1984年頃に掛けて開発されました。1973年に開発されたWABOT-1の後継機にあたります。WABOT-1が基本的な運動機能とコミュニケーションに焦点を当てていたのに対し、WABOT-2はより専門的に、ミュージシャン・ロボットとして特別に設計されています。カメラの「目」で楽譜を読み取り、人間と会話しし、シンセサイザーで音楽を演奏したり、また人間の歌手と一緒にセッションすることもできました。このプロジェクトは、芸術表現など人間のような複雑なタスクを実行できるヒューマノイド・ロボットとAIの開発に向けた有意義な一歩です。
論理的な推論や問題解決に対応できるコンピュータの開発を目標に、日本で第5世代コンピュータ・システム・プロジェクト(FGCS)が立ち上げられ、AI研究を前進させました。この野心的なプロジェクトは、自然言語処理や専門システムなどのタスクを実行できる機械の構築を目指したものでした。1992年に中止されたものの、FGCSプロジェクトとその成果は、並行論理プログラミング分野の発展に大きく貢献しました。
人工知能推進協会(AAAI)の年次総会で、ロジャー・シャンクとマービン・ミンスキーが「AIの冬の時代」が差し迫っていることを警告しました。1970年代半ばに起きた資金削減と同じように、AIをめぐる期待の高まりがまもなく投資と研究の崩壊につながると予測しています。その予測はそれから3年も経たないうちに現実となりました。約束が果たされなかったためにAIへの関心が薄れ、その結果、資金が減り、進捗が鈍化しました。この時期は「第二次AIの冬の時代」として知られるようになりました。
シャンクとミンスキーの警告は、テクノロジーが投資家や一般市民の期待に応えられなかった場合に楽観的な見方がはじけ、その後に失望が続くという、AIハイプの循環的な性質を浮き彫りにしています。
デビッド・ラメルハート、ジェフリー・ヒントン、ロナルド・ウィリアムズが、バックプロパゲーション・アルゴリズムについて説明した画期的な論文"Learning representations by back-propagating errors"(バックプロパゲーション・エラーによる学習表現)を発表します18。この手法では、ニューラル・ネットワークがネットワークを通じてエラーを「バックプロパゲーション」することで内部での重みづけを調整することができ、多層ネットワークが複雑なパターンを学習する能力を向上させることができます。バックプロパゲーションのアルゴリズムは最先端のディープラーニングの基盤となり、ニューラル・ネットワークへの関心をふたたび高め、それまでのAI研究で浮き彫りになっていたいくつかの制限を克服するものでした。この発見はアーサー・ブライソンと何毓琦の1969年の研究を基にしたもので、バックプロパゲーションのアルゴリズムを特にニューラル・ネットワークに適用することで、多層ネットワークのトレーニングにおけるこれまでの制限を克服したのです。
このブレークスルーによって人工ニューラル・ネットワークは実用に耐えうるものとなり、2000年代から2010年代にかけてのディープラーニング革命への扉を開くことになります。
Educomの基調講演で、当時Apple社のCEOだったジョン・スカリーがKnowledge Navigatorの動画を発表します。この動画は、デジタルなスマート・エージェントがユーザーを支援し、ネットワーク・システム経由で膨大な情報にアクセスできるようにする未来を描くものでした19。この先見的なコンセプトでは、ある大学教授が、今では私たちがインターネットとして認知しているものからデータを取得し、質問に答え、情報を表示することができる、知識豊富な音声駆動型アシスタントと対話する様子が描かれています。この動画は、AIアシスタント、ネットワーク化された知識データベース、相互接続されたデジタル世界など、現代のテクノロジーの多くの要素を予見するものでした。
ジューディア・パールが、不確実性の下でのAIの情報処理に革命をもたらす著作『統計的因果推論 - モデル・推論・推測』を出版します20。この研究は、複雑な確率モデルを表現するための形式であるベイジアンネットワークと、その内部で推論を実行するためのアルゴリズムを紹介するものでした。パールの方法論は、AIシステムが不確実な環境でも理に適った決定を下すことを可能にし、AIの分野をはるかに超えて、工学や自然科学などにも影響を与えました。パールの貢献は、AIにおける現代の確率的推論の「表現と計算の基盤」の構築における彼の役割が評価され、2011年のチューリング賞を受賞しました。21
ロロ・カーペンターがJabberwacky22 を開発しました。これは、興味深く、楽しく、ユーモラスな人間らしい会話をシミュレートするために設計された初期のチャットボットです。ルールベースのシステムとは異なり、Jabberwackyは人間とのやりとりから学習してより自然な会話を生成し、後の対話型AIモデルへとつながる道を開きました。このチャットボットは、ユーザーとの対話からの継続的な学習を通じて、自発的で日常的な人間の会話を模倣するAIを作成する最初の試みの1つです。
IBMのT.J. Watson Research Centerの研究者らが、A Statistical Approach to Language Translation(言語翻訳における確率論的アプローチ)を公刊し、これは機械翻訳におけるルールベースの方法から確率論的手法への極めて重要な転換点となりました23。IBMのCandide project24で例示されたこのアプローチは、主にカナダ議会の議事録から引用された220万組の英語とフランス語の文のペアを使用しています。この新しい方法論では、言語の内容を把握したり「理解」することを試みるのではなく、既知の例の分析を頼りにする機械学習の幅広いトレンドを反映して、データ内の確率論的なパターンを学習することに重点を置いています。この確率的モデルは、自然言語処理と機械翻訳におけるその後の多くの進歩への道を開くものでした。
マーヴィン・ミンスキーとシーモア・パパートが、初期のニューラル・ネットワークの重要な批判書であった1969年の『パーセプトロン』の加筆版を出版します。「1988年からの見解」と題された新しいプロローグでは、AI分野の進歩の遅さを振り返り、多くの研究者が過去の課題を十分に理解していないために、これまでの誤りを繰り返し続けていると指摘していました12。ミンスキーとパパートは、これまでのニューラル・ネットワーク研究に不足しているより深い理論的理解の必要性を主張し、後に現代のディープラーニングの進歩につながる当時の新しいアプローチを認識しつつも、旧版での批判をあらためて強調しています。
ヤン・ルカンとAT&T Bell Labsの研究者チームが、バックプロパゲーションのアルゴリズムを多層ニューラル・ネットワークに適用して手書きの郵便番号の画像を認識させることに成功し、画期的なブレークスルーを達成します24。これは畳み込みニューラル・ネットワークを使用したディープラーニングの最初の実用的なアプリケーションの1つです。ネットワークのトレーニングに約3日かかるという当時のハードウェアの制限にもかかわらず、過去の試みに比べると大幅な改善が実現しました。郵便サービスの自動化に向けた重要な課題である手書き数字の認識がこのシステムで成功したことで、画像認識タスクにおけるニューラル・ネットワークのポテンシャルが明らかになり、その後の数十年にわたるディープラーニングの爆発的な成長の基礎が築かれました。
SF作家で数学者のヴァーナー・ヴィンジが、エッセイ「〈特異点〉とは何か?」(The Coming Technological Singularity)を発表し、今後30年以内に人間を超える知能が創造され、人類の文明が根本的に変革されると予測しています 25。ヴィンジは、技術の進歩、特にAIにおける技術の進歩が、知性の爆発的な進歩(つまり機械が人間の知性を超える)、そして私たちが知っている人間の時代の終焉につながると主張しています。彼の論文は、AIが人間の制御を超える瞬間である「技術的特異点(シンギュラリティー)」というコンセプトの普及に貢献し、AI、倫理、未来論のコミュニティーで議論を引き起こしました
この予測は、AIと超知性の潜在的な影響、特に人間の能力をはるかに超える知能を備えた機械を作ることの存続に関わるリスクと倫理的な考慮事項についての議論に影響を与え続けています。
ジョセフ・ワイゼンバウムのELIZAプログラムを基盤として、Richard Wallaceがチャットボット A.L.I.C.E.26 (人工言語インターネット・コンピューター・エンティティー) を開発しました。会話をシミュレートするために台本に書かれた応答に依存していたELIZAとは異なり、A.L.I.C.E.は新たに台頭したワールド・ワイド・ウェブを活用して膨大な量の自然言語データを収集・処理し、より複雑で流ちょうな会話を行うことができました。A.L.I.C.E.は、AIML(人工知能マークアップ言語)と呼ばれるパターン・マッチングの手法を使って応答を解析・生成し、従来のソリューションよりも適応性と拡張性を高めています。Wallaceの仕事は対話型AIのさらなる進歩に向けた基盤を整えるもので、現代のバーチャル・アシスタントやチャットボットに影響を与えています。
Sepp HochreiterとJürgen Schmidhuberが、リカント・ニューラル・ネットワーク(RNN)の一種である長・短期記憶(LSTM)を紹介します。これは従来のRNNの限界、特にデータに含まれる長期的な依存関係を効果的に把握できない点を克服するために設計されたものでした。LSTMネットワークは、手書き文字の認識、音声認識、自然言語処理、時系列予測などのアプリケーションで広く使用されています。
IBMのDeep Blueがチェスの世界チャンピオンであるガルリ・カスパロフを6試合で破り、歴史を塗り替えましたました27。標準的なチェス・トーナメントの時間管理下でコンピュータによるチェス・プログラムが世界チャンピオンを破ったのは初めてのことです。Deep Blueの勝利は、長年にわたり人間の知性の特質と考えられていた高度に戦略的なゲームにおいて、コンピューターが人間を上回るパフォーマンスを発揮できることを実証しました。1秒で数百万の手を計算できる能力にゲーム理論と発見的手法の進歩を組み合わせることで、Deep Blueはカスパロフを凌駕し、AIの歴史における地位を確固たるものにしました。
この出来事はまた、将来的な人間の認知とAIとの関係についての議論を触発し、自然言語処理や自律システムなど他の分野におけるAI研究にも影響を与えました。
Dave HamptonとCaleb Chungが、広く成功を収めた最初の家庭用ロボットペット「ファービー」を開発しました28。ファービーは接触、音、光に反応して、時間の経過とともに言語を「学習」することができます。最初は自分たちの言語である「ファービッシュ」を、そしてユーザーと交流するにつれて徐々に英語を「話す」ようになります。学習を模倣してユーザーと関わるその能力は、より高度なソーシャルロボットの先駆けとなり、また消費者向け製品でロボティクスとエンターテインメントを初めて融合させた例となりました。
ヤン・ルカン、ヨシュア・ベンジオとその共同研究者らが、手書き文字認識へのニューラル・ネットワークの応用に関する重要な論文を発表しました29。その研究は畳み込みニューラル・ネットワーク(CNN)を使用してバックプロパゲーション・アルゴリズムを最適化し、ディープ・ネットワークのトレーニングにより適したものにすることに焦点を当てています。バックプロパゲーションのプロセスを改良し、画像認識とパターン認識におけるCNNの力を実証したルカンとベンジオの研究は、今日広汎なAIアプリケーションで使用されている最新のディープラーニング技術の基盤となりました。
MITのシンシア・ブリジールが、感情的・社会的なサインを通じて人間と対話できるように設計されたロボット、Kismetを開発しました30。Kismetにはカメラ、マイク、表情を示す機能が備わっており、喜び、悲しみ、驚きなどの人間の感情を認識して反応することができます。その発明は、ロボットが人間とより自然に対話する方法を探求するソーシャル・ロボティクスの進歩を示すものでした。
ジェフリー・ヒントンは、ディープラーニングにおける主な進歩を要約し、多層ニューラル・ネットワークをより効果的にトレーニングする方法を概観する論文"Learning Multiple Layers of Representation"を出版しました31。ヒントンの論文は、センサーデータを単に分類するのではなく、データを生成するために段階的な接続でネットワークをトレーニングすることに焦点を当てています。このアプローチは、従来のニューラル・ネットワークから現在ディープラーニングと呼ばれているものへの移行を象徴するものであり、これにより機械がデータの複雑な階層表現を学習できるようになりました。
プリンストン大学のFei-Fei Liとそのチームが、アノテーション付き画像の最も大規模かつ包括的なデータベースの1つを作成するImageNetプロジェクトを開始しました32。ImageNetは数千のカテゴリーにわたる何百万ものラベル付き画像を提供し、視覚的オブジェクト認識ソフトウェアの開発をサポートできるよう設計されています。そのデータ・セットの規模と品質は、コンピューター・ビジョンの研究、特に画像内のオブジェクトを認識して分類するディープラーニング・モデルのトレーニングにおける発展を可能にしました。
Rajat Raina、Anand Madhavan、Andrew Ngが、”Large-scale Deep Unsupervised Learning”を発表し、ディープラーニングのタスクではグラフィック・プロセッシング・ユニット(GPU)が従来のマルチコアCPUをはるかに上回る性能を実現できると主張しました33。彼らはGPUの優れたコンピューティング能力が、教師なしディープラーニングの応用可能性を飛躍的に広げ、研究者がより広範で複雑なモデルをより効率的にトレーニングできることを実証しています。この論文はディープラーニングにおけるGPUの導入を加速させ、コンピューター・ビジョンや自然言語処理などの分野での最新のAIアプリケーションを推進する2010年代のブレークスルーにつながりました。
ノースウェスタン大学のIntelligent Information Laboratoryのコンピュータ・サイエンティストが、人間の介入なしにスポーツニュースの原稿を自動生成できるプログラム「Stats Monkey」を開発しました34。 Stats Monkeyは試合統計を使用し、試合の概要、選手の調子、分析などを盛り込んで、野球についての一貫性のある原稿を作成することができます。
高度な自然言語による質疑応答が可能なコンピュータ、IBMのWatsonが、米国のクイズ番組「ジェパディ!」で最も成功したチャンピオンであるKen Jennings氏とBrad Rutter氏の2人と対決し勝利を収め、注目を集めます35。Watsonはその自然言語処理・解釈能力と膨大な知識ベースによって、複雑な質問に迅速かつ正確に答えることができます。この勝利は、洗練されたレベルで人間の言語を理解して対話するAIの能力の進化を浮き彫りにしました。
AppleがiOSオペレーティング・システムに統合されたバーチャル・アシスタント、Siriを発表しました。Siriは、ユーザーが音声コマンドを通じてデバイスを操作できる自然言語ユーザー・インターフェースを備えています。Siriは機械学習を使用して各ユーザーの好みや音声パターンに適応し、メッセージの送信、リマインダーの設定、推奨事項の提供、質問への回答などのタスクを実行できます。このパーソナライズされた適応型音声認識システムは、各個人に合わせたエクスペリエンスを提供して、一般消費者向けのAI搭載アシスタントの使いやすさとアクセシビリティーを飛躍的に向上させました。
Jeff DeanとAndrew Ngが、YouTube動画から取得した1,000万枚のラベルなし画像と大規模なニューラル・ネットワークを使用した実験を行います36。この実験では、ネットワークが事前のラベル付けなしでデータ内のパターン認識を学習し、「おもしろいことに」、1つのニューロンが猫の画像に特に反応するようになりました。この発見は教師なし学習のデモンストレーションであり、ディープ・ニューラル・ネットワークが膨大な量のデータから特徴を自律的に学習できることを示しています。この発見は教師なし学習のデモンストレーションであり、ディープneural networksが膨大な量のデータから特徴を自律的に学習できることを示しています。
ImageNet Large Scale Visual Recognition Challengeで、Geoffrey Hinton率いるトロント大学の研究者チームが、画期的な成果を達成する畳み込みニューラル・ネットワークを設計します37。AlexNetとして知られるこのCNNはエラー率を16%にまで抑え、前年の最高成績である25%から大幅な改善を示しました。この成果は、コンピューター・ビジョンにおけるディープラーニングの転換点となり、CNNが大規模なデータ・セットによるトレーニングを受ければ、従来の画像分類手法を上回るパフォーマンスを実現できることを証明しました。
Google DeepMindのAlphaGoが、世界トップレベルの囲碁棋士の1人、李世乭を破りました。宇宙の原子よりも多くの動きが可能な複雑なボード・ゲームである囲碁は、長い間AIの課題と考えられていました38。AlphaGoが李に4–1で勝利したことは、AIにおける画期的な瞬間であり、以前はAIの能力を超えていた、非常に複雑な戦略的タスクを処理するディープラーニング技術の力を示しています。
Hanson Robotics社が高度なヒューマノイド・ロボットであるSophiaを発表しました39。Sophiaは、画像認識と自然言語処理を組み合わせて相手の顔を認識し、目を合わせて会話を続けることができます。
Facebook Artificial Intelligence Research(FAIR)研究所の研究者が、互いに交渉し合うように2つのチャットボットをトレーニングします。チャットボットは英語でコミュニケーションするようプログラムされていたにも関わらず、会話を進めるうちに構造化された人間の言語から逸脱し、より効率的にコミュニケーションをとるための独自の略語を作成し始めました40。チャットボットが人間の介入なしにコミュニケーションの最適化を始める、このような展開は予期されていないものでした。チャットボットの言語を人間が理解できるものに保つためにこの実験は中止されましたが、この結果は、AIシステムが自律的かつ予測不可能な形で進化する可能性を浮き彫りにしています。
OpenAIが1,750億のパラメーターを備えた言語モデルであるGPT-3を発表し、これは現在までもっとも大規模で洗練されたAIモデルの1つとなっています。GPT-3は人間のような文を生成し、会話に参加し、コードを書き、言語を翻訳し、自然言語プロンプトに基づいて創造的な文章を生成する能力を示しています。大規模言語モデル(LLM)の初期の例の1つであるGPTはサイズとスケールが非常に大きく、タスクに固有のトレーニングをほとんど、またはまったく受けることなく、さまざまな言語タスクを実行できるようになりました。これはAIが一貫性の高い言語を理解して生成できる可能性を示す事例となっています。
DeepMindのAlphaFold 2が、アミノ酸配列からタンパク質の3D構造を正確に予測し、生物学にブレークスルーをもたらします。この成果は、タンパク質がどのようにして独自の三次元形状に折りたたまれるのかを理解するという、何十年もの間科学者を悩ませてきた問題を解決しました。AlphaFold 2の高精度なタンパク質構造予測は、疾病研究や医薬品開発に貢献し、病気の背後にある分子メカニズムを理解し、革新的な治療法をより効率的に設計するための新しい方法を提供します。
Googleが開発したMUM(マルチタスク統合モデル)は、75の言語にわたる言語理解と生成により、検索エクスペリエンスを向上させるよう設計された強力なAIモデルです。MUMはマルチタスクを実行し、テキスト、画像、動画を同時に分析できるため、より複雑でニュアンスのある検索クエリーに対応することができます41。従来のモデルとは異なり、MUMはマルチモーダルなインプットを処理して、複数の情報源が関係する高度な質問に対して、包括的でコンテキストに沿った回答を提供することができます。
Tesla社が完全自動運転の実現を目的とした先進運転支援システム、Full Self-Driving(FSD)Betaを発表します。FSD Betaはディープラーニングとニューラル・ネットワークを活用し、街路、高速道路、交差点などの複雑な運転シナリオをリアルタイムでナビゲートします。これによりTesla社の車は、ドライバーの監視が必要とはいえ、特定の条件下で自律的なステアリング、アクセル、ブレーキの制御が可能になりました。Tesla社のFSD Betaは、完全自動運転車の製造という同社の目標に向けた一歩を踏み出すものですが、自動運転テクノロジーの普及に向けた道のりには、依然として規制上の課題と安全上の懸念が残っています。
OpenAIが、文章による描写から精細な画像を生成できる生成AIモデル、DALL-E 2とDALL-E 3を発表します。これらのモデルは高度なディープラーニングとTransformerアーキテクチャーを使用し、ユーザーのインプットを基にして、複雑でリアルな芸術性の高い画像を作成します。DALL-E 2と3は、ビジュアル・コンテンツの作成におけるAIの利用を普及させ、従来のグラフィック・デザインのスキルがなくてもユーザーがアイデアを画像にすることができます。
2月
Googleが最大100万トークンのコンテキスト長を処理できる高度な言語モデル、Gemini 1.5を限定ベータ版で発表します42。このモデルは、1つのプロンプトで膨大な量の情報を処理、理解することができ、拡張されたテキスト上の複雑な会話やタスクでコンテキストを維持する能力を向上させます。Gemini 1.5は、長いインプットに対するメモリー機能と文脈理解を強化し、自然言語処理における顕著な進歩をもたらしました。
OpenAIが、文による描写から最大1分の長さの動画を生成できるテキスト/動画変換モデル、Soraを発表します43。このイノベーションにより、AIが生成したコンテンツの利用が静的画像以外にも広がり、ユーザーがプロンプトに基づいてダイナミックで精細な動画クリップを作成できるようになります。Soraは動画コンテンツ制作の新たな可能性を開くことが期待されています。
StabilityAIが、テキスト/画像変換モデルの最新版であるStable Diffusion 3を発表しました。Soraと同じく、Stable Diffusion 3も同様のアーキテクチャーを使用して、文によるプロンプトから精細でクリエイティブなコンテンツを生成します44。
5月
Google DeepMindが、がんや遺伝性疾患の特定に役立つAlphaFoldの新しい拡張版を発表し、遺伝診断とパーソナライズされた医療のための強力なツールを提供しています45。
IBMがwatsonxプラットフォームの一部として、Graniteファミリーの生成AIモデルを発表します。30億~340億のパラメーターを持つGraniteモデルは、コード生成、時系列予測、ドキュメント処理などのタスクのために設計されています。オープンソースであり、Apache 2.0ライセンスのもとで利用できるこれらのモデルは、軽量で費用対効果が高く、カスタマイズ可能であるため、幅広いビジネス用アプリケーションに最適です。
6月
AppleがChatGPTを新しいiPhoneとSiriに統合するApple Intelligenceを発表します。46この統合により、Siriはより複雑なタスクを実行するだけではなく、より自然な会話を続け、ニュアンスのある指示を適切に理解して実行することができます。
9月
NotebookLMが、ソース資料をポッドキャストとして構造化された魅力的な音声プレゼンテーションに変換できる新しいマルチモーダルAI、DeepDiveを導入しました47。ウェブページ、文書、音声、動画など、さまざまな形式の情報を分析および要約するDeepDiveの能力は、さまざまなプラットフォームの間でパーソナライズされ自動化されたコンテンツを作成する新しい機会をもたらします。この機能により、DeepDiveはメディア制作や教育プログラムに多用途に使えるツールとなっています。
現在のAIのトレンドは、より小規模で効率的な基盤モデルで動作する生成AIの新たな進化と、特定の複数のAIモデルが連携してユーザーの要求を迅速に処理するエージェント型AIの台頭を示しています。さらなる未来では、自動運転車が高速道路を走行し、マルチモーダルAIが単一のプラットフォームで音声、動画、文書、画像を作成し、AIアシスタントがユーザーの私生活やキャリアの方向性をサポートすることでしょう。
始める
今すぐ視聴する
登録してダウンロードしてください
詳細はこちら