ディープ・ラーニングとは

更新日：2024年6月17日
寄稿者：Jim Holdsworth、Mark Scapicchio

ディープラーニングとは

ディープラーニングは、ディープニューラル・ネットワークと呼ばれる多層ニューラル・ネットワークを使用して、人間の脳の複雑な意思決定能力を模倣する機械学習のサブセットです。ディープラーニングは、今日の私たちの生活における多くの人工知能（AI）アプリケーションを何らかの形で支えています。

深層学習と機械学習の主な違いは、基礎となるニューラル・ネットワーク・アーキテクチャの構造です。「非ディープ」（従来の機械学習）モデルでは、1つまたは2つの計算層を持つ単純なニューラル・ネットワークが使用されます。一方、深層学習モデルでは、モデルをトレーニングするために3つ以上の層（通常、数百～数千の層）を使用します。

教師あり学習モデルでは、正確な出力を行うため、構造化されたラベル付けされた入力データが必要ですが、深層学習モデルでは教師なし学習を使用できます。教師なし学習を使用すると、ディープラーニングモデルが未加工の非構造化データから正確な出力を作成するために必要な特性、特徴、および関係を抽出します。さらに、これらのモデルは、精度を高めるために出力を評価および改良することもできます。

ディープラーニングは自動化を改善し、人間の介入なしに分析タスクや物理タスクを実行することで多くのアプリケーションやサービスを推進するデータサイエンスの特徴の1つです。このおかげで、バーチャル・アシスタント、音声対応のテレビリモコン、クレジットカード詐欺検知、自動運転車、生成AIなど、日常的に使用する多くの製品やサービスを提供することができます。

AIガバナンスの活用で責任あるAIワークフローを構築

チームが責任あるAIを加速するのに役立つ構成要素とベスト・プラクティスについて説明します。

関連コンテンツ

生成AIに関する電子ブックに登録する

AIを見ていく

AIの拡張方法はこちら

AI Academyはこちら

ディープラーニングの仕組み

ニューラル・ネットワーク（人工ニューラル・ネットワーク）は、データ入力、重み、バイアスの組み合わせを通じて人間の脳を模倣しようとします。これらはすべてシリコンニューロンでやりとりされます。これらの要素は連携して、データ内のオブジェクトを正確に認識、分類、予測します。

ディープニューラル・ネットワークは、相互に接続されたノードの複数の層で構成され、各層は前の層の上に構築され、予測や分類を洗練し最適化します。このようにネットワークを介して計算が進行することを順伝播と呼びます。ディープニューラル・ネットワークの入力層と出力層は可視層と呼ばれます。入力層はディープラーニングモデルがデータを取り込んで処理する場所であり、出力層は最終的な予測や分類を行う場所です。

バックプロパゲーション（誤差逆伝播法）と呼ばれる別のプロセスは、勾配降下などのアルゴリズムを使用して予測値の誤差を計算し、モデルを訓練するために層を逆伝播させることで関数の重みとバイアスを調整する方法です。順伝播と逆伝番を併用することで、ニューラルネットワークは予測を行い、エラーを修正することができます。時間の経過とともに、アルゴリズムは徐々に精度を増していきます。

ディープラーニングには膨大な計算能力が求められます。高性能のグラフィカル・プロセッシング・ユニット（GPU）は、大量のメモリを使用しながら、マルチコアで大量の計算を処理できるため理想的です。分散型クラウドコンピューティングも役立つかもしれません。ディープラーニングで深いアルゴリズムを訓練するには、このレベルの計算能力が必要です。しかし、複数のGPUを構内で管理するためには社内のリソースに大きな負担をかけることになり、拡張にも多大なコストがかかります。ソフトウェアの要件として、ほとんどのディープラーニングアプリはJAX、PyTorch、TensorFlowの3つの学習フレームワークのいずれかでコーディングされています。

ディープラーニングモデルの種類

ディープラーニング・アルゴリズムは非常に複雑で、特定の問題やデータセットに対処するためのさまざまな種類のニューラル・ネットワークがあります。以下で、そのうちの6種類を見てみましょう。それぞれに独自のメリットがあり、ここでは開発順に概要を示します。後続の各モデルは以前のモデルの弱点を克服するように調整されています。

それらすべてに共通する潜在的な弱点の1つとして、ディープラーニングモデルがしばしば「ブラックボックス」であることや、内部の仕組みを理解することが困難であり、解釈可能性についての課題があることが挙げられます。しかし、これは、高い精度と拡張性の全体的なメリットとバランスをとることができます。

CNN

畳み込みニューラルネットワーク（CNNまたはConvNet）は、主にコンピューター・ビジョンや画像分類アプリケーションで使用されます。 CNNは画像や動画内の特徴やパターンを検出できるため、物体検出、画像認識、パターン認識、顔認識などのタスクが可能になります。これらのネットワークは線形代数、特に行列の乗法の原理を利用して、画像内のパターンを識別しています。

CNNは、入力層、1つ以上の隠れ層、および出力層を含むノード層で構成される特定のタイプのニューラル・ネットワークです。各ノードは他のノードに接続され、順番としきい値が関連付けられています。個々のノードのいずれかの出力が、指定されたしきい値を超えると、そのノードがアクティブ化されて、ネットワークの次の層にデータが送信されます。それ以外の場合、データはネットワークの次の層に渡されません。

CNNは、畳み込み層、プーリング層、全結合（FC）層の少なくとも3つの主なタイプの層で構成されます。複雑な用途の場合、CNNには最大数千の層が含まれる場合があり、各層は前のレイヤーの上に構築されます。元の入力を加工して再加工する「畳み込み」によって、詳細なパターンを発見できます。層が増えるごとにCNNは複雑さを増し、イメージのより多くの部分を識別できるようになります。以前の層は、色やエッジといった単純な特徴にフォーカスしていました。イメージ・データがCNNの層を通過するにつれて、オブジェクトのより大きな要素や形状が認識され始め、最終的に目的のオブジェクトが識別されます。

CNNは、イメージ、音声、オーディオ信号入力に対する優れた性能によって、他のニューラル・ネットワークと比べて際立った存在となっています。CNNが登場する前は、イメージ内のオブジェクトを識別するために、手作業で時間のかかる特徴抽出手法が使用されていました。しかし、現在、CNNは画像分類やオブジェクト認識タスクに対してよりスケーラブルなアプローチを提供し、高次元データを処理しています。また、CNNはレイヤー間でデータを交換し、より効率的なデータ処理を実現できます。プーリング層で情報が失われる可能性はあるものの、それ以上に、複雑さを軽減し、効率を向上させ、過剰適合のリスクを制限するのに役立つCNNのメリットが上回る可能性があります。

CNNには、計算量が多く、時間と予算がかかり、多くのグラフィック・プロセッシング・ユニット（GPU）が必要になるという欠点もあります。また、クロスドメインの知識を持ち、構成、ハイパーパラメーター、および構成を慎重にテストする高度な訓練を受けた専門家も必要です。

RNN

リカレント・ニューラル・ネットワーク（RNN）は通常、連続データまたは時系列データを使用する自然言語および音声認識アプリケーションで使用されます。RNNは、フィードバックループによって識別できます。これらの学習アルゴリズムは主に、時系列データを使用して将来の結果について予測する場合に使用されます。使用例には、株式市場の予測や売上予測、言語翻訳、自然言語処理（NLP）、音声認識、画像キャプション作成などの順序や時間に関する問題が含まれます。これらの機能は、Siri、音声検索、Google翻訳など、人気のアプリケーションに組み込まれていることがよくあります。

RNNは、以前の入力から情報を取得し、現在の入力と出力に影響を与える際に「メモリ」を使用します。従来のディープニューラル・ネットワークは入力と出力が互いに独立していることを前提としていますが、RNNの出力はシーケンス内の過去の要素に依存します。将来のイベントも特定のシーケンスの出力を決定するのに役立ちますが、単方向再帰型ニューラルネットワークでは予測でこれらのイベントを考慮することはできません。

RNNはネットワークの各層でパラメーターを共有し、ネットワークの各層内で同じ重みパラメーターを共有します。重みは、強化学習を促進するためにバックプロパゲーションと勾配降下プロセスを通じて調整されます。

RNNは、時間逆伝播（BPTT）アルゴリズムを使用して勾配を決定します。これは、シーケンスデータ固有のものであるため、従来の逆伝播とは少し異なります。BPTTの原理は従来のバックプロパゲーションと同じで、出力層から入力層までの誤差を計算することでモデル自体をトレーニングします。BPTTは、BPTTが各タイムステップで誤差を合計するのに対し、フィードフォワードネットワークは各層でパラメーターを共有しないため、誤差を合計する必要がないという点で従来のアプローチとは異なります。

他のニューラルネットワークタイプに勝るメリットは、RNNがバイナリデータ処理とメモリを両方を使用することです。RNNは複数のインプットとプロダクションを計画できるため、RMMは1つのインプットに対して1つの結果だけを提供するのではなく、1対多、多対1、または多対多のアウトプットを生成できます。

RNNにはオプションもあります。たとえば、長期短期記憶（LSTM）ネットワークは、長期的な依存関係を学習し、それに基づいて動作するため、単純なRNNよりも優れています。

しかし、RNNは、勾配爆発および勾配消失と呼ばれる基本的な2つの問題に遭遇する傾向があります。これらの問題は、誤差曲線に沿った損失関数の傾きである勾配のサイズによって定義されます。

勾配が消えて小さくなりすぎた場合、勾配は小さくなり続け、重みパラメータは重要でなくなるまで、すなわちゼロ（0）になるまで更新されます。このような場合、アルゴリズムは学習しなくなります。
勾配爆発は、勾配が大きすぎて不安定になった場合に起こります。この場合、モデルの重みが大きくなりすぎて、最終的には NaN（数値ではない）と表現されます。これらの問題に対する解決策の1つが、ニューラル・ネットワーク内の隠れ層の数を減らし、RNNモデルの複雑さを一部排除することです。

最後に、RNNはトレーニングに多大な時間がかかること、そして大規模なデータセットで使いにくい場合があるというデメリットがあります。レイヤーやパラメーターが多数ある場合、RNNを最適化すると複雑さが増します。

オートエンコーダーと変分オートエンコーダー

ディープラーニングにより、数値データの分析だけでなく、画像、音声、その他の複雑なデータタイプの分析も可能になりました。これを実現した最初のクラスのモデルの中に、変分オートエンコーダ（VAE）がありました。これらは、リアルな画像や音声の生成に広く使用された最初のディープラーニングモデルであり、モデルのスケーリングが容易になることでディープジェネレーティブモデリングを強化しました。これが、私たちが生成AIと考えるものの基礎です。

オートエンコーダーは、ラベル付けされていないデータを圧縮された表現にエンコードし、データを元の形式にデコードして戻すことによって機能します。プレーンオートエンコーダーは、破損した画像や不鮮明な画像の再構成など、さまざまな目的に使用されました。変分オートエンコーダーは、データを再構築するだけでなく、元のデータのバリエーションを出力するクリティカルな機能も追加しました。

この斬新なデータを生成する能力によって、生成的敵対ネットワーク（GAN）から拡散モデルまで、これまで以上にリアルなフェイク画像を生成できる新技術が次々と登場しました。このように、VAEは今日の生成AIの基盤を築いています。

オートエンコーダーはエンコーダーとデコーダーのブロックから構築されており、このアーキテクチャーは今日の大規模な言語モデルも支えています。エンコーダーはデータ・セットを高密度の表現に圧縮し、類似のデータポイントを抽象空間内でより近くに配置します。デコーダーはこの空間からサンプリングして、データ・セットの最も重要な特徴を維持しながら、新たなものを作成します。

オートエンコーダーの最大のメリットは、大量のデータを処理し、データを圧縮形式で表示できることです。そのため、最も重要な側面が際立ち、異常検知と分類タスクが可能になります。これにより、転送速度が向上し、ストレージ要件も削減されます。オートエンコーダーはラベルなしデータでトレーニングできるため、ラベル付きデータが利用できない場所でも使用できます。教師なし学習が使用される場合、時間を節約できるというメリットがあります。そのため、ディープラーニング・アルゴリズムは自動的に学習を行い、手作業による機能のエンジニアリング作業を行うことなく精度を上げることができます。さらに、VAEはテキストや画像を生成するための新しいサンプルデータを生成することができます。

オートエンコーダにはいくつかの欠点があります。深層構造や複雑な構造のトレーニングは、計算リソースを浪費する可能性があります。また、教師なしトレーニング中に必要なプロパティを見落とし、代わりに入力データを複製するだけになる可能性があります。また、オートエンコーダーは、構造化データ内の複雑なデータのリンクを見落として、複雑な関係を正しく識別できない可能性もあります。

GAN

生成的敵対的ネットワーク（GAN）は、元のトレーニングデータに似た新しいデータを作成するために人工知能（AI）の内外で使用されるニューラル・ネットワークです。人間の顔のように見える画像が含まれる場合がありますが、これらは実際に人間を撮影したものではなく、生成されたものです。名前にある「敵対的」の部分は、GANの2つの部分（ジェネレーターとディスクリミネーター）の間を行ったり来たりすることからつけられています。

ジェネレーターは、画像、ビデオ、またはオーディオを作成し、ひねりを加えた何かを出力を生成します。たとえば、馬はある程度の精度でシマウマに変えることができます。結果は、入力された情報と、このユースケースの生成モデルで層がどの程度トレーニングされているかによって異なります。
ディスクリミネーターは敵対者であり、生成成果（フェイク画像）がデータ・セット内の実際画像と比較されます。また、本物の画像、ビデオ、音声と偽物の画像、ビデオ、音声を区別しようとします。

GANは、自らトレーニングを行います。ジェネレーターは偽物を作成し、ディスクリミネーターはジェネレーターの偽物と真の例の違いを見つけることを学習します。ディスクリミネーターが偽物にフラグを立てることができた場合、ジェネレーターはペナルティを受けます。フィードバックループは、ジェネレーターが、ディスクリミネーターが区別できない出力の生成に成功するまで継続します。

GANの主なメリットは、元の出力と区別するのが難しい現実的な出力を作成できることです。これにより、機械学習モデルのさらなるトレーニングが可能になります。GANは、ラベル付けされていないデータやマイナーなラベル付けでトレーニングされるため、学習するためのGANの設定は簡単です。ただし、潜在的な欠点は、ジェネレーターとディスクリミネーターが長時間競合して行ったり来たりするため、システムの負荷が大きくなる可能性があるということです。トレーニングにかかる制限の1つとして、満足のいく出力を得るために大量の入力データが必要になる可能性があります。もう1つの潜在的な問題は、ジェネレーターが生成する出力の種類が多様ではなく、限定されたセットである場合の「モード崩壊」です。

拡散モデル

拡散モデルは、漸進的なノイズ追加とノイズ除去の順方向拡散プロセスと逆方向拡散プロセスを使用してトレーニングされる生成モデルです。拡散モデルは、トレーニングに使用されたデータと同様のデータ（主に画像) を生成しますが、トレーニングに使用されたデータは上書きされます。学習データにガウス・ノイズが認識できなくなるまで徐々に加えていきます。その後、ランダムなノイズ入力から出力（通常は画像）を合成できる逆の「ノイズ除去」プロセスを学習します。

拡散モデルは、生成されたサンプルの所望のターゲットに対する差を最小化するように学習する。不一致は定量化され、モデルのパラメータが更新されて損失が最小限に抑えられ、本物のトレーニングデータによく似たサンプルが生成されるようにモデルがトレーニングされます。

拡散モデルには画質以外にも、敵対的なトレーニングが必要ないというメリットがあり、学習プロセスが高速化され、綿密なプロセス制御も提供されます。トレーニングはGANよりも安定しており、拡散モデルはモード崩壊を起こしにくいです。

ただし、拡散モデルはGANに比べ、ファイン・チューニングなどの多くのコンピューティング・リソースが必要です。IBM Researchは、この形式の生成AIは隠されたバックドアで乗っ取られる可能性があり、攻撃者が画像作成プロセスを制御できるようになるため、AI 拡散モデルを騙して操作された画像を生成できるようになることも発見しました。

Transformerモデル

トランスフォーマーモデルは、エンコーダー/デコーダーアーキテクチャーとテキスト処理メカニズムを組み合わせ、言語モデルのトレーニング方法に革命をもたらしました。エンコーダーは、注釈のない生のテキストを埋め込みと呼ばれる表現に変換します。デコーダーは、これらの埋め込みをモデルの以前の出力と共に取得し、文中の各単語を連続的に予測します。

空欄補充推測を使用して、エンコーダーは単語と文が互いにどのように関連しているかを学習し、品詞やその他の文法機能をラベル付けせずに強力な言語表現を構築します。実際、トランスフォーマーは特定のタスクを念頭に置かずに、最初から事前学習することができます。モデルは、これらの強力な表現を学習した後、要求されたタスクを実行するために、より少ないデータで特殊化できます。

これを可能にするのが、いくつかのイノベーションです。トランスフォーマーは文内の単語を同時に処理するため、テキストの並列処理が可能になり、トレーニングが高速化されます。リカレント・ニューラル・ネットワーク（RNN）などの以前の技術では、単語を1つずつ処理していました。また、トランスフォーマーは単語の位置や関係性を学習し、この文脈によって意味を推測するため、長文における「it」などの単語の曖昧さをなくすことができます。

トランスフォーマーはタスクを事前に定義する必要がなくなるため、膨大な量の未加工テキストで言語モデルを事前にトレーニングすることが可能になり、サイズを劇的に拡大できるようになりました。以前は、ラベル付けされたデータを収集し、特定のタスクで1つのモデルをトレーニングしていました。トランスフォーマーを使用すると、大量のデータでトレーニングされた1つのモデルをラベル付きの少量のタスク固有データで微調整することで、複数のタスクに適合させることができます。

現在、言語トランスフォーマーは、分類やエンティティ抽出などの非生成タスクだけでなく、機械翻訳、要約、質問応答などの生成タスクにも使用されています。トランスフォーマーは、説得力のある会話、エッセイ、その他のコンテンツを生成する能力で多くの人々を驚かせてきました。

自然言語処理（NLP）トランスフォーマーは、並列実行してシーケンスの複数の部分を同時に処理できるため、驚くべき能力を発揮しトレーニングを大幅に高速化します。トランスフォーマーはテキスト内の長期的な依存関係も追跡するため、全体的なコンテキストをより明確に理解し、優れた出力を作成できます。さらに、タスクごとにカスタマイズできるように、よりスケーラブルで柔軟性があります。

制限に関して言えば、トランスフォーマーはその複雑さゆえに膨大な計算リソースと長いトレーニング時間を必要とします。また、正確な結果を生み出すためのトレーニングデータは正確に的を射ており、偏りがなく、豊富でなければなりません。

ディープラーニングのユースケース

ディープラーニングの用途は日々増加しています。ここでは、企業がより効率的になり、顧客により良いサービスを提供できるよう支援する方法のほんの一部を紹介します。

アプリケーションのモダナイゼーション

生成AIは開発者の能力を強化し、アプリケーションモダナイゼーションとIT自動化の領域で拡大し続けるスキルギャップを縮小することができます。大規模言語モデル（LLM）テクノロジーと自然言語処理（NLP）における最近の進歩によりコーディング用の生成AIが実現しました。これは、深層学習アルゴリズムと、既存のソースコードの膨大なデータセットでトレーニングされた大規模なニューラル・ネットワークを使用します。トレーニングコードは通常、オープンソースプロジェクトによって作成された公開コードから取得されます。

プログラマーは、コードに実行させたい内容を説明するプレーンテキストのプロンプトを入力できます。生成AIツールは、コードスニペットまたは全機能を提案し、反復的なタスクを処理して手動コーディングを減らすことでコーディングプロセスを合理化します。生成AIはコードをある言語から別の言語に翻訳することもでき、COBOLをJavaに変換してレガシーアプリケーションを更新するなど、コード変換や最新化プロジェクトを合理化します。

コンピューター・ビジョン

コンピューター・ビジョンは、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む人工知能（AI）の分野です。機械学習とニューラル・ネットワークを使用して、コンピューターと学習システムがデジタル画像、ビデオ、その他の視覚入力から意味のある情報を導き出し、システムに欠陥や問題が見つかったときに推奨事項を作成したり、アクションを実行したりするように指示します。AIによってコンピューターが思考できるようになると、コンピューター・ビジョンにより、見て、観察し、理解できるようになります。

コンピューター・ビジョン・システムは、製品の検査や生産資産の監視を行うように訓練されていることが多いため、通常は1分間に数千の製品やプロセスを分析し、目に見えない欠陥や問題を見つけることができます。コンピューター・ビジョンは、エネルギーや公益事業から製造や自動車に至るまで幅広い業界で使用されています。

また、コンピューター・ビジョンには大量のデータが必要で、画像を識別して最終的に認識するまでにそのデータの分析を何度も実行します。例えば、自動車のタイヤをコンピューターに認識させるには、膨大な量のタイヤ画像やタイヤに関するアイテムを与えて違いを学習させ、特に欠陥のないタイヤを認識させる必要があります。

コンピューター・ビジョンではアルゴリズムモデルを使用し、コンピューターが視覚データのコンテキストについて学習できるようにします。十分なデータがモデルに供給されると、コンピューターはそのデータを「見て」、ある画像と別の画像を区別できるように学習します。アルゴリズムを使用すると、画像を認識するようプログラムしなくても、マシン自らが学習できるようになります。

コンピューター・ビジョンにより、コンピューターとシステムはデジタル画像、ビデオ、その他の視覚入力から意味のある情報を導き出し、それらの入力に基づいてアクションを実行できます。この推奨提案機能は、単なるイメージ認識のタスクとは区別されます。このコンピューター・ビジョンの一般的な応用例としては、以下のようなものがあります：

自動車：自動運転車の時代はまだ完全には到来していませんが、その基礎となる技術は自動車に搭載され始めており、車線検出機能などを通じてドライバーと同乗者の安全性を向上させています。
ヘルスケア：コンピューター・ビジョンが放射線技術に組み込まれており、医師が健康な人体構造内の癌性腫瘍をより適切に識別できるようになりました。
マーケティング：ソーシャル・メディア・プラットフォームでは、プロフィールに投稿された写真によって写っている可能性のある人物を提案してくれるため、フォト・アルバム内の友人を簡単にタグ付けできます。
小売：ビジュアル検索が、いくつかのEコマース・プラットフォームに組み込まれており、手持ちの衣服を補完するアイテムをブランドが推奨できるようになりました。

カスタマー・ケア

AIは、企業が消費者の需要の高まりをより深く理解し、その需要に応えられるよう支えます。高度にパーソナライズされたオンラインショッピング、消費者直販モデル、配送サービスの台頭により、生成AIは顧客ケア、人材変革、アプリケーションのパフォーマンスを向上させる多くのメリットをさらに引き出すのに役立ちます。

AIは、顧客からのフィードバックや購買習慣から得られる貴重なインサイトを活用することで、企業が顧客中心のアプローチを採用できるよう後押しします。このようなデータ駆動型のアプローチは、製品の設計とパッケージングの改善に役立ち、高い顧客満足度と売上の増加を促進するのに役立ちます。

生成AIはカスタマー・ケアの認知アシスタントとしても機能し、会話履歴、感情分析、コールセンターの記録に基づいて状況に応じたガイダンスを提供します。また、パーソナライズされたショッピングエクスペリエンスを実現し、カスタマーロイヤルティの促進と、競争上の優位性を提供します。

デジタルレイバー

組織は、ロボットによるプロセス自動化（RPA）とデジタルレイバーを構築および導入して、人間と連携して生産性を向上させたり、バックアップが必要なときにいつでも支援したりすることで労働力を増強できます。たとえば、これは開発者がレガシーソフトウェアの更新を迅速化するのに役立ちます。

デジタルレイバーは基盤モデルを使用して、技術的な障壁なく、迅速かつ信頼性の高い方法でセルフサービスの自動化を可能にし、ナレッジワーカーの生産性を自動化および向上させます。タスクのパフォーマンスやAPIの呼び出しを自動化するエンタープライズグレードのLLMベースのスロット・フィリング・モデルは、会話内の情報を識別し、アクションの完了やAPIの呼び出しに必要なすべての情報をほとんど手間をかけずに手作業で収集できます。

技術専門家がナレッジワーカーの反復的なアクションフローを記録してエンコードする代わりに、モデルを利用した会話型の指示とデモンストレーションを基盤として構築されたデジタルレイバーオートメーションを、ナレッジワーカーはセルフサービスの自動化に使用できます。たとえば、アプリの作成をスピードアップするためのノーコード・デジタル・アプレンティスでは、コードを効果的に指導、監督、検証することで、プログラミングの専門知識を持たないエンドユーザーを支援できます。

生成AI

生成AI（gen AIとも呼ばれる）は、ユーザーのプロンプトやリクエストに応じてテキスト、画像、ビデオ、データ、その他のコンテンツを自律的に作成するAIのカテゴリーです。

生成AIは既存のコンテンツのパターンから学習し、そのトレーニングに基づいて新しい同様のコンテンツを生成できる深層学習モデルに依存しています。カスタマー・サービス、マーケティング、ソフトウェア開発、研究など、多くの分野に応用でき、高速で自動化されたコンテンツの作成と拡張を通じて企業のワークフローを合理化する大きな可能性をもたらします。

生成AIは、電子メール、画像、動画、音声ファイル、ソーシャルメディアコンテンツなどの多様なデータソースの処理に優れています。この非構造化データは、モデル作成と生成AIの継続的なトレーニングのバックボーンを形成するため、長期にわたって効果を維持できます。この非構造化データを使用すると、チャットボットによるカスタマーサービスを強化し、より効果的なメールルーティングを促進できます。実際には、ユーザーを適切なエージェントにつなぐか、ユーザーガイドやFAQに誘導するかなど、適切なリソースにユーザーを誘導することを意味する場合があります。

その規制やリスクが頻繁に議論されているものの、多くの企業は歩みを進め、生成AIを活用して内部ワークフローを改善し、製品やサービスを強化する方法を慎重に模索しています。これは新たなフロンティアであり、法的・倫理的問題を引き起こすことなく、いかにして職場を効率化するかということです。

開発者向けの生成AI

自然言語処理と音声認識

NLPは、コンピューターやデジタル・デバイスがテキストや音声を認識、理解、生成できるようにするために、計算言語学（人間の言語のルールベースのモデリング）と統計学および機械学習モデルを組み合わせたものです。NLPは、テキストをある言語から別の言語に翻訳したり、入力または音声コマンドに応答したり、音声に基づいてユーザーを認識または認証したりできるアプリケーションやデバイスを強化します。大量のテキストを要約し、テキストや音声の意図や感情を評価し、テキストやグラフィックなどのコンテンツをオンデマンドで生成するのに役立ちます。

NLPのサブセットは統計NLPであり、コンピューターアルゴリズムと機械学習および深層学習モデルを組み合わせます。このアプローチは、テキストおよび音声データの要素を自動的に抽出、分類、ラベル付けし、それらの要素の考えられる意味それぞれに統計的尤度を割り当てるのに役立ちます。今日では、RNNに基づくディープラーニングモデルと学習技術により、NLPシステムは、作業中に「学習」し、膨大な量の未加工、非構造化、ラベル付けされていないテキストおよび音声データセットから、これまで以上に正確な意味を抽出できます。

音声認識（自動音声認識（ASR）、コンピュータ音声認識、音声テキスト変換とも呼ばれる）は、プログラムが人間の音声を文字形式に変換できるようにする機能です。

音声認識は一般に音声認識と混同されますが、音声認識は音声を口頭形式からテキスト形式に変換することに重点を置いているのに対し、音声認識は個々のユーザーの音声を識別することだけを目的としています。

業種別の用途

現実世界の深層学習アプリケーションは私たちの周りに溢れており、製品やサービスにうまく統合されているため、ユーザーはバックグラウンドで複雑なデータ処理が行われていることに気づきません。これらの例には次のようなものがあります。

カスタマー・サービス・ディープラーニング

多くの組織が、ディープラーニング技術をカスタマーサービス・プロセスにり入れています。チャットボットは、さまざまなアプリケーションやサービス、カスタマーサービス・ポータルでよく使われています。従来のチャットボットでは、自然言語や、コールセンターのようなメニューでよく見られる視覚認識も使われていました。しかし、より洗練されたチャットボット・ソリューションは、学習を通じて、あいまいな質問に対して複数の回答があるかどうかをリアルタイムで判断しようとします。受け取った回答に基づいて、チャットボットはこれらの質問に直接答えようとするか、人間のユーザーに会話をルーティングします。

AppleのSiri、Amazon Alexa、Googleアシスタントなどの仮想アシスタントは、音声認識機能を有効にすることでチャットボットの概念を拡張します。これにより、パーソナライズされた方法でユーザーを関与させる新しい方法が生まれます。

金融サービス分析

金融機関は、予測分析を定期的に使用して株式のアルゴリズム取引を推進し、融資承認のビジネスリスク評価、詐欺検知、顧客の信用および投資ポートフォリオ管理を支援します。

医療記録の保管

病院の記録や画像がデジタル化されて以来、ヘルスケア業界はディープラーニング機能から大きな恩恵を受けています。画像認識アプリケーションは、医用画像診断の専門家や放射線技師をサポートし、より多くの画像をより短時間で分析・評価するのに役立ちます。

法執行機関におけるディープラーニング

ディープラーニング・アルゴリズムは、トランザクション・データを分析して学習し、詐欺行為や犯罪行為の可能性を示す危険なパターンを特定します。音声認識、コンピューター・ビジョン、その他のディープラーニングアプリケーションは、音声やビデオの記録、画像、文書からパターンや証拠を抽出することで、調査分析の効率と有効性を向上させることができます。この機能により、法執行機関では大量のデータをより迅速かつ正確に分析できるようになります。