IBM Data and AI

生成AI(ジェネレーティブAI)とは

記事をシェアする:

生成AI(ジェネレーティブAI)とは

「生成AI(ジェネレーティブAI)」は、トレーニングされたデータに基づいて高品質なテキストや画像、その他のコンテンツを生成することができるディープラーニングAIモデルです。

AIは繰り返し何度も過度な期待をされてきましたが、ChatGPTのリリースは、AIに疑いを持つ人々にさえ転換点を示しているようです。OpenAIのチャットボットは、最新の大規模言語モデルによって支えられており、詩を書いたり、ジョークを言ったり、人間が作ったかのようなエッセイを作成することができます。いくつかの単語でChatGPTに指示を与えると、Yelpのレビューの形式で愛の詩が出てきたり、Nick Caveのスタイルで歌詞が生成されたりします。

過去に生成AIが大きな存在感を示し始めたのは、コンピューター・ビジョンの分野でのブレイクスルーです。自撮り画像がルネサンス風の肖像画に変わったり、顔を急速に老けさせたりする様子がソーシャルメディアで広まりました。それから5年が経ち、自然言語処理(NLP)が大幅に進歩し、大型言語モデルがほぼあらゆるテーマについて即興で創作する能力を持つようになり、人々の想像力を捉えています。そして生成モデルは、言語に限らず、ソフトウェア・コード、(化学的な構造や組成を持つ物質の)分子、(合成・生成ではない)自然の画像など、さまざまなデータ・タイプの法則を学習することができます。

この技術の応用範囲は日々拡大しており、その可能性は探求され始めたばかりです。IBM Researchでは、生成モデルを活用して、お客様が高品質なソフトウェア・コードをより速く書くために役立てたり、新しい分子を発見したり、企業データに基づいた信頼性のある会話型チャットボットを訓練したりすることに取り組んでいます。私たちはさらに、生成AIを使用して、プライバシーや著作権法で保護された実データの代わりとなる合成データを作成し、より堅牢で信頼性のあるAIモデルを構築するためにも活用しています。

進化し続けるこの分野において、生成AIとは何を意味するのか、どのようにここに至ったのか、そしてこれらのモデルがどのように機能するのかを客観的に説明したいと思います。

深層生成モデルの台頭

生成AIは、未加工のデータ(たとえば、Wikipediaの全文またはレンブラントの作品集)を受け取り、要求されたときに統計的に可能性のある出力を生成するように「学習」できるディープラーニング(深層学習)モデルを指します。生成モデルは学習データを簡略化した表現をエンコードし、高度なレベルで、元データと似ているが同一ではない新しい作品を作り出します。

生成モデルは、数値データの統計解析においては長年にわたって使用されてきました。しかし、ディープラーニングの台頭により、これらのモデルを画像や音声などの複雑なデータ・タイプに拡張することが可能になりました。このクロスオーバーの偉業を達成した最初のモデルのクラスの一つが、2013年に導入された変分オートエンコーダー(VAE)です。VAEは、現実的な画像や音声の生成に広く使用される最初のディープラーニング・モデルでした。

「VAEは、モデルのスケーリングを容易にすることで、深層生成モデリングの門戸を開きました」と、MIT-IBM Watson AI Labの生成AIの専門家であるAkash Srivastava氏は述べています。「現在の生成AIの多くは、ここから始まったものです」

オートエンコーダーは、ラベルのないデータを圧縮された表現にエンコードし、データを元の形式にデコードすることで機能します。「通常の」オートエンコーダーは、破損した画像やぼやけた画像の再構成など、さまざまな目的に使用されました。変分オートエンコーダーは、データを再構成するだけでなく、元のデータの変化を出力するという重要な能力を追加しました。

この新しいデータを生成する能力は、敵対的生成ネットワーク(GAN)から拡散モデルまで、より現実的でありながら偽の画像を生成することができる技術の急速な発展を引き起こしました。このように、VAEは今日の生成AIの舞台を築きました。

これらのモデルはエンコーダーとデコーダーのブロックで構築されており、このアーキテクチャーは現在の大規模言語モデルの基盤でもあります。エンコーダーはデータセットを密な表現に圧縮し、類似したデータポイントを抽象的な空間でより近くに配置します。デコーダーはこの空間からサンプリングして、新しいものを作り出す一方で、データセットの最も重要な特徴を保持します。

Transformer(トランスフォーマー)の登場と基盤モデル

2017年にGoogleが「Attention Is All You Need(ibm.com外のサイトへ)」という画期的な論文で発表した「Transformer」は、エンコーダー/デコーダーのアーキテクチャーとアテンションと呼ばれるテキスト処理メカニズムを組み合わせ、言語モデルのトレーニング方法を変えました。エンコーダーは未加工の注釈のないテキストをエンベディング(埋め込み)として知られる表現に変換し、デコーダーはこれらのエンベディングとモデルの前の出力を受け取り、文の各単語を連続して予測します。

穴埋めクイズを通じて、エンコーダーは単語や文がお互いにどのように関連しているかを学習し、文法的な要素や他の文法的な特徴をラベル付けすることなく、言語の強力な表現を構築します。実際、Transformerは特定のタスクを前もって定義する必要がないため、最初から事前トレーニングすることができます。これらの強力な表現が学習された後で、特定のタスクを実行するためにわずかなラベル付きのタスク固有データでモデルを微調整することができます。

これが可能になったのにはいくつかの技術革新がありました。Transformerは文中の単語を一度に処理するため、テキストを並列に処理でき、トレーニングが高速化しました。以前の技術である回帰型ニューラルネットワーク(RNN)や長短期記憶(LSTM)ネットワークは、単語を一つずつ処理しました。Transformerはまた、単語の位置とその関係、長い文の中の「it」のような単語の意味を推測し、曖昧性を解消するための文脈を学習しました。

タスクを事前に定義する必要がなくなったことで、Transformerは言語モデルが大量の生のテキスト・データを事前学習することを実用化し、モデルのサイズを大幅に拡大することができました。これまでは、特定のタスクに対して1つのモデルを訓練するために、データを集めてラベルを付けていましたが、Transformerを使用すると、大量のデータで1つのモデルをトレーニングし、後でラベル付けされたタスク固有の少量のデータで微調整することで、複数のタスクに適応させることができます。

Transformerはその汎用性から基盤モデルとして知られています。Srivastava氏は「以前は、分類器を改善したければ、より多くのラベル付きデータを与える必要がありました」と述べています。「しかし、基盤モデルを使用すると、モデルに大量のラベル付けされていないデータを与えて多くのタスクにうまく適用できる表現を学習することができます」

現在の言語Transformerは、分類やエンティティー抽出などの非生成タスクだけでなく、翻訳、要約、質問応答などの生成タスクにも使用されています。最近ではTransformerはその能力によって、説得力のある対話、エッセー、およびその他のコンテンツを生成することで世界を驚かせています。

Transformerの分類

言語Transformerはエンコーダーのみのモデル、デコーダーのみのモデル、エンコーダー/デコーダー・モデルの3つの主要なカテゴリーに分類されます。

エンコーダーのみのモデル(BERTなど)は、検索エンジンやカスタマー・サービス・チャットボット(IBM Watson Assistantなど)に力を発揮しています。エンコーダーのみのモデルは、顧客フィードバックの分類や長文から情報の抽出など、生成ではないタスクに広く使用されています。NASAとのプロジェクトでは、IBMが地球科学ジャーナルの数百万件の情報を探索するためのエンコーダーのみのモデルを開発しています。

GPTシリーズなどのデコーダーのみのモデルは、エンコードされた表現なしで次の単語を予測するように訓練されています。OpenAIが2020年にリリースしたGPT-3は、その大規模さと言語生成の能力で注目されました。デコーダーのみのモデルは、対話、文章生成、物語作成などのタスクで優れた結果を示しています。

エンコーダー/デコーダー・モデル(T5など)は、翻訳、要約、質問応答などのタスクに使用されています。エンコーダー/デコーダー・モデルは、入力文をエンコードし、デコーダーが出力を生成することで、変換や生成タスクを実行します。

これらの深層生成モデルは、画像、音声、文章、その他のデータ・タイプに広範な応用があります。将来的には、生成AIの研究と開発はさらに進み、新たな革新が生まれることが期待されます。

教師あり学習が復活する

教師なしデータの利用能力は、生成型AIの力を解き放つための重要な革新でした。しかし、最近では人間の監督が復活し、大規模な言語モデルの進歩を後押ししています。AI開発者は、教師あり学習を活用して、生成モデルとその強力な埋め込み表現との相互作用を形成することが増えています。

GoogleのFLANシリーズで導入されたInstruction-tuning(指示調整)により、生成モデルは単純なタスクにとどまらず、よりインタラクティブで一般的な方法で支援することができるようになりました。様々なトピックの回答とともに指示を与えることで、統計的な確率の高いテキストだけでなく、「フランスの首都はどこか」といった質問や「次の数値リストを並べ替えなさい」といった指示に対して人間のような回答を生成することができるようになりました。

一連のプロンプト(基盤モデルに与えられる最初の入力)を慎重に設計することで、モデルはさまざまなタスクを実行できるようにカスタマイズできます。場合によっては、ラベル付きのデータは一切必要ありません。単にモデルにタスクを実行するように依頼するだけで、明示的にトレーニングされていないタスクを含めることもできます。この完全にデータ・フリーなアプローチはゼロショット学習と呼ばれ、例を一つまたは少数提供するone- or few-shot学習としても知られています。

プロンプト・エンジニアリングとチューニング

ゼロショット学習とfew-shot学習は、結果を得るためにデータ収集が最小限で済むため、AIソリューションの構築にかかる時間を大幅に短縮します。しかし、ゼロショット学習とfew-shot学習にはいくつかの制約もあります。まず、多くの生成モデルは、指示のフォーマットに敏感であり、これがプロンプト・エンジニアリングとして知られる新しいAIの分野を生み出しました。良い指示プロンプトは、1回または2回の試行で望む結果を出力するものですが、これはコロンや改行を適切な位置に配置することによって実現されることが多いです。プロンプト・エンジニアリングは効果的ですが、扱いにくい場合もあります。あるモデルでうまく機能するプロンプトは、他のモデルに移植できないことがあります。

エンタープライズにとってゼロショット学習とfew-shot学習のもう一つの制約は、主要な資産であるプロプライエタリ・データを組み込む難しさです。生成モデルが大規模な場合、エンタープライズ・データでの微調整は非常に高コストになる可能性があります。プロンプト・チューニングやアダプターなどの技術が代替手段として登場しました。これらの技術では、数十億から数兆のパラメータを調整することなく、ユーザーのデータと目標タスクを凝縮した少数のパラメータを大規模モデルに挿入します。そこで、モデルの振る舞いを直接変更せずにモデルの動作を調整します。

「パラメータ効率の調整方法によって、ユーザーは望む結果を得るだけでなく、大規模な事前学習済みモデルの力を所有のデータに利用することができます」とMIT-IBM Watson AI LabのDavid Cox氏は述べています。「プロンプト・エンジニアリングとパラメーター効率の調整は、伝統的なディープラーニング・ソリューションに時間と費用をかけることなく、モデルが望む動作をするための強力なツールセットを提供します」

最近では、人間の監督によって生成モデルの振る舞いが形作られています。このアライメントとは、生成モデルの応答を私たちの希望により適合させることができるという考えです。OpenAIが普及させたヒューマン・フィードバックによる強化学習(RLHF)は、ChatGPTなどのモデルにその人間らしい会話能力を与えるためのアライメント方法です。RLHFでは、生成モデルが候補の応答を出力し、人間が正当性を評価します。強化学習を通じて、モデルは人間が高く評価した応答に似た応答をより多く出力するように調整されます。このトレーニングによって、AIシステムは人間が高品質とみなす会話テキストを出力することができるようになります。

生成AIはどこへ向かう?

これまでのところ、生成AIの主要なトレンドはスケールです。ますます成長するデータセットでトレーニングされた大型モデルが、より良い結果を達成してきました。以前のモデルのスケールに基づいて、新しい大型モデルのパワーを推定することができます。モデルのスケール則によって、AIの研究者は、大量の計算リソースを投資する前に、大型モデルの性能について理にかなった推測をすることができます。

一方で、モデルがある程度のサイズに達した時に生じる新たな能力に対する関心は続いています。これらのスキルが生じるのは、単にモデルのアーキテクチャーだけでなく、そのスケールによるものです。例えば、論理的な推論や指示に従う能力などが挙げられます。いくつかの研究所は、これらの新たな能力を追求するために、ますます大型のモデルを訓練し続けています。

しかし、最近のエビデンスは、大型モデルへの潮流を覆しています。いくつかの研究グループは、よりドメインに特化したデータでトレーニングされた小型モデルが、しばしば大型の汎用モデルよりも優れた性能を発揮することを示しています。例えば、スタンフォード大学の研究者は、比較的小型のモデルであるPubMedGPT 2.75Bを生物医学の要約文にトレーニングし、そのモデルが同じサイズの汎用モデルよりも医学的な質問により良い回答ができることを見つけました。彼らの研究は、特定の領域の性能が重要な場合には、より小型でドメインに特化したモデルが適切な選択肢である可能性を示唆しています。

MIT-IBMのCox氏は、「特定のアドバイスが必要な場合には、単に知っている最も賢い人を探すよりも、ドメインの専門家に助けを求めた方が良い場合もあります。専門化には他の利点もあります。小型のモデルは非常にコストがかからず、環境にやさしいです」と述べています。

生成モデルの蒸留

生成モデルが現在よりも大きくなるのか、小さくなるのかという問題は、モデルの蒸留という新しいトレンドによってさらに混沌としています。スタンフォード大学のグループは最近、OpenAIの大型言語モデルであるGPT-3.5の能力を、はるかに小型のモデルで構築されたAlpacaチャットボットに「蒸留」しようと試みました。研究者たちは、GPT-3.5に数千の指示と応答のペアを生成させ、指示に基づいた調整を行うことで、AlpacaにChatGPTのような会話のスキルを持たせるためにAI生成のデータを利用しました。その後、VicunaやDollyといった名前の類似したモデルがインターネット上に登場しました。

MIT-IBMのCox氏は、「Alpacaのアプローチは、新たな能力に大型モデルが必要かどうかに疑問を投げかけています。Dolly 2のようないくつかのモデルでは、蒸留のステップをスキップし、代わりに人間から直接指示/応答されるデータをクラウド・ソーシングしています。これらの最近の動向を総合すると、よりコンパクトなモデルが広範な実用ケースに十分な場合がある時代に入っている可能性があります」と述べています。

生成AIは、企業に新たな能力と価値を創造する巨大な潜在能力を持っています。しかし、それはまた、法的、財務、評判のリスクをもたらすこともあります。ChatGPTなどを動かす多くの生成モデルは、信憑性があるように見えるが真実ではない(「幻覚(ハルシネーション)」と呼ばれます)情報や、敵対的意見や偏見を示す情報を提供することもあります。生成モデルはまた、トレーニング・データに個人的な情報や著作権のある情報を無意識に取り込んで、後にそれを出力することがあり、プライバシーや知的財産法に関する独自の課題を生み出します。

これらの問題の解決は、研究のオープンな領域であり、次のブログ記事「企業向けに生成AIをカスタマイズするIBMの方法」で詳しく取り上げます。

この記事は英語版IBM Researchブログ「What is generative AI?」(2023年4月20日公開)を翻訳し一部更新したものです。


関連情報

IBMのサービスとソリューション

More IBM Data and AI stories

データ分析者達の教訓 #16- ステークホルダーの高い期待を使命感と創意工夫で乗り越えろ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む


組み込み生成AIでプロダクトの魅力をアップ! 日米エコシステム・エンジニアリング対談

Client Engineering, Data Science and AI, IBM Partner Ecosystem...

競争優位性を高めるために、自社が開発・販売するソフトウェアやソリューションに生成AIなどのIBMテクノロジーを組み込む。 それが「新たな収益」「大幅な費用削減」「新規顧客獲得」を、どれくらいもたらすのか。そして開発にはど ...続きを読む


データ分析者達の教訓 #15- データ分析は手段と割り切り情熱をもって目標に進め

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さんこんにちはIBMの河田です。SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進め ...続きを読む