合成データは人工的に生成されたものであるにもかかわらず、元となる実データの統計的な特性を保持しています。そのため、合成データセットは実データセットを補完したり、場合によっては置き換えたりすることも可能です。
合成データはテスト・データの代替として機能し、主に機械学習モデルのトレーニングに使用されます。これは、AIモデルに必要とされる高品質な実世界のトレーニング・データが不足しているという課題に対する、潜在的な解決策となります。さらに、合成データは、データが限られていたり、取得に時間がかかったり、データ・プライバシーやセキュリティ要件のためにアクセスが困難であったりする金融や医療などの分野でも注目を集めています。実際、調査会社ガートナー社は、2026年までに企業の75%が合成顧客データの生成に生成AIを活用するようになると予測しています。1
合成データには、マルチメディア形式、表形式、テキスト形式などがあります。合成テキスト・データは自然言語処理(NLP)に活用でき、合成表形式データはリレーショナル・データベースのテーブル作成に利用できます。また、動画や画像、その他の非構造化データといった合成マルチメディアは、コンピューター・ビジョンのタスク、たとえば画像分類、画像認識、物体検知などに応用できます。
合成データは、その生成の程度に応じて分類することもできます。
完全合成データとは、実世界の情報を一切含まない、完全に新たに生成されたデータのことを指します。実データに内在する属性、パターン、関係性を推定し、それをできる限り忠実に再現する形で生成されます。
たとえば金融組織では、不正アクセス検知のためのAIモデルを効果的にトレーニングさせるために、疑わしい取引のサンプルが不足している場合があります。そのような場合には、不正取引を表現した完全合成データを生成し、モデルのトレーニングを強化することが可能です。これは、金融サービス企業であるJ.P. Morgan社の手法にも類似しています。
ハイブリッド合成データは、実データセットと完全合成データを組み合わせたものです。元のデータセットのレコードと、対応する合成データのレコードをランダムに組み合わせて作成されます。たとえば、顧客データの分析や洞察の抽出に活用でき、特定の顧客に機微なデータが遡られることを防ぐことができます。
組織は、独自に合成データを生成することもできます。また、Synthetic Data VaultのようなPythonライブラリを使って合成データを作成したり、他のオープンソースのアルゴリズム、フレームワーク、パッケージ、ツールを利用することも可能です。あらかじめ構築されたIBM® Synthetic Data Setsのようなデータセットを使用するという選択肢もあります。
合成データを生成する一般的な手法には、次のようなものがあります。
これらの手法は、分布や相関関係、特性が十分に把握されており、数学的モデルによってシミュレーション可能なデータに適しています。
分布ベースのアプローチでは、統計関数を用いてデータの分布を定義し、その分布からランダムにサンプリングすることで新たなデータポイントを生成することができます。
相関に基づくストラテジーでは、補間や外挿を用いることができます。たとえば時系列データにおいては、線形補間によって隣接するデータポイントの間に新たなデータを生成したり、線形外挿によって既存のデータを超えるポイントを生成したりすることが可能です。
敵対的生成ネットワーク(GAN)では、2つのニューラル・ネットワークが関与します。1つは合成データを生成するジェネレーター、もう1つは本物と人工のデータを識別するディスクリミネーター(識別器)です。この2つのネットワークは反復的にトレーニングされ、識別器のフィードバックによってジェネレーターの出力が向上していき、最終的には識別器が人工データと実データの区別がつかなくなるまで精度が高められます。GANは、画像生成によく使用されます。
Transformerモデルは、OpenAIの生成事前学習トランスフォーマー(GPT)のように、小規模言語モデル(SLM)および大規模言語モデル(LLM)の両方の基盤となる技術です。Transformerは、エンコーダーとデコーダーを用いてデータを処理します。
エンコーダーは、インプットシーケンスを、そのシーケンス内のトークンの意味と位置を取得する「埋め込み」と呼ばれる数値表現に変換します。Transformerは自己注意メカニズムにより、トークンの位置とは無関係に、インプットシーケンス内の最も重要なトークンに「注意を集中させる」ことができます。デコーダーは、その後、この自己注意メカニズムとエンコーダーによる埋め込みを使用して、統計的に最も確率の高いアウトプット・シーケンスを生成します。
Transformerモデルは、言語の構造やパターンの理解に優れています。そのため、人工的なテキスト・データの生成や、合成表形式データの作成に利用することができます。
変分オートエンコーダー(VAE)は、学習したデータのバリエーションを生成する生成モデルです。エンコーダーは入力データを低次元空間に圧縮し、入力に含まれる意味のある情報を取得します。次に、デコーダーがこの圧縮表現から新しいデータを再構築します。GANと同様に、VAEも合成画像の生成に利用できます。
このシミュレーション・ストラテジーでは、複雑なシステムをエージェントと呼ばれる個々の実体を含む仮想環境としてモデル化します。エージェントは、あらかじめ定義されたルールに基づいて動作し、環境や他のエージェントと相互作用します。エージェントベース・モデリングは、こうした相互作用やエージェントの挙動をシミュレーションすることで、合成データを生成します。
たとえば、疫学におけるエージェントベース・モデルでは、集団内の個人をエージェントとして表現します。エージェント同士の相互作用をモデル化することで、接触率や感染確率といった合成データを生成することができます。こうしたデータは、感染症の拡大を予測したり、介入策の効果を検証したりするのに役立ちます。
合成データは進化を続けるテクノロジーであり、企業にとって以下のような利点があります。
データサイエンスのチームは、合成データをビジネスの正確な要件や仕様に合わせてカスタマイズすることができます。また、データサイエンティストが合成データセットをより細かく制御できるため、管理や分析が容易になります。
合成データを生成することで、実データの収集にかかる手間や時間を省くことができ、データの作成が迅速になり、ワークフローの加速にもつながります。さらに、合成データにはあらかじめラベルが付けられているため、大量のデータに対して手作業でラベリングやアノテーションを行うという煩雑な作業を省くことができます。
合成データは実世界のデータに似ていますが、個人データが特定の個人に紐づかないように生成することが可能です。これはデータの匿名化の一種として機能し、機微な情報の保護に役立ちます。また、合成データを活用することで、企業は知的財産権や著作権の問題を回避でき、ユーザーの許可や認識なしにWebサイトから情報を収集するWebクローラーの使用を不要にすることができます。
人工的に作成されたデータセットは、AIの学習において過小評価されがちなグループのデータを生成・補完することで、データ・ダイバーシティーを高めるのに役立ちます。また、元のデータが乏しい場合や実データが存在しない場合にも、合成データによってそのギャップを埋めることができます。さらに、エッジケースや外れ値をデータポイントとして含めることで、合成データセットの幅が広がり、実世界の多様性や予測不可能性をより正確に反映させることができます。
合成データには多くのメリットがありますが、一方でいくつかの課題も伴います。合成データ生成のベスト・プラクティスに従うことで、こうした課題に対処し、人工データの価値を最大限に引き出すことが可能になります。
合成データに関連する主な課題には、次のようなものがあります。
合成データは、もとになっている実世界のデータに含まれている可能性のあるバイアスを依然として引き継ぐことがあります。バイアスを軽減するためには、多様なデータソースを使用し、地域や人口統計的な属性の異なる複数のデータを取り入れることが有効です。
モデルの崩壊とは、AIモデルがAIによって生成されたデータのみで繰り返し学習されることで、性能が低下してしまう現象です。この問題を防ぐには、実データと人工データをバランスよく組み合わせたトレーニング・データセットを使用することが有効です。
合成データの生成プロセスでは、精度とプライバシーのバランスを取ることが常に課題となります。精度を優先すれば、より多くの個人データを保持することにつながる可能性があり、一方でプライバシーを重視すれば、精度が低下するおそれがあります。企業のユースケースに応じて、適切なバランスを見つけることが非常に重要です。
合成データが生成された後には、その品質を検証するための追加のチェックやテストを実施する必要があります。これはワークフローにひと手間加わることになりますが、人工データセットにエラー、不整合、または不正確さが含まれていないことを確認するために不可欠なステップです。
合成データは汎用性が高く、さまざまな用途に向けて生成することができます。以下は、合成データが大きな利点となり得る主な業種・業務の例です。
エージェントベース・モデリングは、交通の流れに関する人工データの生成に利用でき、道路や交通システムの改善に貢献します。また、合成データを活用することで、自動車メーカーは車両の安全性試験に必要な実際の衝突データを取得するという、高コストかつ時間のかかるプロセスを回避することができます。自動運転車の開発企業は、さまざまなシナリオで自動運転車をトレーニングするために、合成データを使用することが可能です。
合成の金融データは、リスクの評価と管理、予測モデリングや将来予測、取引アルゴリズムのテストなど、さまざまな用途に活用できます。たとえば、IBM Synthetic Data Setsには、クレジットカードや住宅保険請求における不正アクセス検知を支援するシミュレーション・データや、マネー・ロンダリング対策ソリューション向けの銀行取引のシミュレーション・データが含まれています。
合成データセットは、製薬会社が医薬品の開発を加速させるのに役立ちます。一方で、医療研究者は、臨床試験に部分合成データを使用したり、革新的な治療法や予防的治療法を検討するために、完全合成データを用いて人工的な患者記録や医用画像を作成したりすることができます。また、エージェントベース・モデリングは、疫学分野における疾病の伝播や介入策の研究にも応用可能です。
製造業の企業は、製品の欠陥や基準からの逸脱をリアルタイムで検査するコンピューター・ビジョンモデルの目視検査能力を向上させるために、合成データを活用することができます。また、人工データセットは予知保全の精度向上にも貢献し、合成センサーデータを用いることで、機械学習モデルが設備の故障をより正確に予測し、適切かつタイムリーな対応を推奨できるようになります。
1生成AIの未来に関する大胆かつ実行可能な予測3選、ガートナー社、2024年4月12日
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
オープンなデータレイクハウス・アプローチがどのように信頼できるデータを提供し、分析とAIプロジェクトをより迅速に実行できるかをご覧ください。
4つの重要なステップで、データおよび分析戦略をビジネス目標に結び付けましょう。
ビジネス・インテリジェンスの課題がなぜ解決されないのか、そしてそれが組織全体のユーザーにとって何を意味するのかを詳しく見てみましょう。
1生成AIの未来に関する大胆かつ実行可能な予測3選、ガートナー社、2024年4月12日