公開日:2024年8月27日
寄稿者:Dave Bergmann、Cole Stryker
拡張分析とは、自然言語処理(NLP)とその他の機械学習機能のデータ分析プラットフォームへの統合を指します。拡張分析ツールでは、人工知能(AI)も使用し、直感的でユーザーフレンドリーなワークフローを通じてデータ分析のオートメーションと効率化を実現します。
拡張分析は、データ準備、モデルの選択、洞察の生成、データの視覚化などのプロセスのオートメーションや簡素化を通じて、データ駆動型の意思決定を民主化するのに役立ちます。拡張分析の機能により、かつてはデータサイエンティストの技術的専門知識を必要としていたタスクを、アナリストやビジネス・ユーザーでも同様に実行できるようになります。
生成AIは、拡張分析プラットフォームやセルフサービス・ツールの普及を加速させています。洗練された大規模言語モデル (LLM)の利用可能性が高まるにつれて、自然言語クエリと自然言語生成 (NLG) が容易になり、ユーザーは技術的な知識や特殊なプログラミング言語がなくてもデータをクエリし、結果を解釈できるようになります。
さらに、機械学習アルゴリズムは、特定のユーザーやユースケースのニーズに合わせて、拡張分析ツールのコア機能を継続的に最適化することができます。たとえば、Business Intelligence(BI )プラットフォームは、ユーザー・クエリの経時的なパターンを識別し、それらのパターンに合わせた実行可能な洞察をレポート・ダッシュボードにリアルタイムで自動的に表示することができます。
拡張分析により、複雑なデータから意味のある洞察を得る際の技術的な障壁が軽減され、より幅広い人々が分析プロセスにアクセスできるようになります。これにより、拡張分析ソリューションが企業全体のデータ・リテラシーを向上させ、熟慮を経たデータ分析に基づいて、組織全体にわたる重要なビジネス上の意思決定を確実に下すことができます。
Thinkニュースレターの購読
その用語が示すように、拡張分析ソリューションは、データ準備から洞察の生成、明確で解釈しやすいレポートの提供まで、データ分析プロセスのすべての段階を拡張するように設計されています。強力なセルフサービス型の分析プラットフォームにより、ユーザーはこれまでよりも少ない労力と技術知識で、より深い洞察を得ることができます。
理想的な拡張分析ソリューションの主な機能は次のとおりです。
単調な作業を減らし、時間を節約するチャンスをつくることが、拡張分析の最も明白なメリットです。ビッグデータ時代の到来によりデータ量が増加するにつれ、分析用にデータを準備し、異種のデータソースからの洞察を統合するために必要な労力も同時に増加しました。
機械学習アルゴリズムで処理するには、複数のソースからデータを収集し、整理して集約し、クリーンに、かつ一貫性を保ってフォーマットする必要があります。たとえば表形式のデータ・セットを扱う場合、各データ・ポイントのベクトル埋め込みのそれぞれの特徴が他のデータ・ポイントの特徴と一致するように、データ・フィールドを一貫して順序付けする必要があります。これを手作業で行うと、非常に退屈で労力のかかるプロセスになる可能性があります。
AIで強化された最新のBI プラットフォームでは、機械学習を使用して、次の手法で多くのデータ・クリーニングのタスクを自動化できます。
関連するデータ属性を自動的に検出。たとえば、アルゴリズムによって位置情報(郵便番号や緯度経度の座標など)や連絡先情報(メールアドレスや電話番号など)の存在を検出できます。これらのデータ機能は、統一された書式設定スキーム内に配置できます。
データ品質を確保し、プライバシーを保護。 アルゴリズムは、組織のデータガバナンスポリシーに従って、さまざまなデータソースからの入力を重み付け、強調解除、または無視するようにトレーニングできます。拡張分析プラットフォームは、たとえば、個人を特定する情報(PII)のデータ・ポイントを自動的にスクラブすることで、データ・ガバナンスの実践をさらに強化できます。これは、このような情報の使用が厳しく規制されている医療などの分野で特に有用です。
PDFやリッチテキストソースからの情報の読み取りと抽出。このプロセスでは、テキストを機械で読み取り可能な形式に変換するために、null値や特殊文字(句読点や非標準記号など)の削除または置換が必要になる場合もあります。
通常、データ分析に関連する作業では、特定の意思決定や特定の仮説を検証するために、データを積極的にクエリする必要があります。しかし強力なデータサイエンスの価値の多くは、目に見えない、あるいは予期せぬつながりや洞察を得るためにデータを大規模に探索することで得られます。
拡張分析ツールは、例えばユーザーが見落としていたかもしれない異種のデータ・ソース間の関連を自動的に提案したり、さらなる分析のために外れ値や異常な傾向を表面化したりします。関連付けモデルやクラスタリングモデルなどの教師なし学習を応用することで、実行可能な洞察をもたらす可能性のある固有のパターンと相関関係を認識できます。
データ分析に興味を持つ非技術系ユーザーにとって最も重要な参入障壁の1つは、従来のデータ分析に深い専門的技術知識が必要になることです。多くの個人にとって、コーディングや構造化クエリ言語 (SQL) の使用を学ぶことは非常に困難で、時間がかかります。ここには、結果を効果的に解釈し検証するために必要な統計手法、命名法、ベストプラクティスの学習が含まれます。
データ分析と自然言語処理(NLP)の融合は、拡張分析によってデータ主導の洞察へのアクセスを広げる拡張分析によって、おそらく最も影響力があり直感的な方法です。ユーザーは、「ホリデーシーズン後の30日間で、最も返品率の高い商品はどれか」といった、平易でシンプルな言葉でデータをクエリし、同様にわかりやすい言葉で応答を受け取ることができます。
バックエンドでは、LLMはその自然言語クエリーを解釈し、構造化されたリクエストに変換し、ユーザーの質問のコンテキストの理解に基づいて、欠落している情報を埋めるための仮定を行う必要があります。リクエストを処理するには、1つ以上のモデルを選択する必要があります。モデルは、その問題に最も関連したデータ・ソースを抽出する必要があります。最後に、LLMは数学的結果を解釈し、関連する詳細を中心に据えた方法で明確に表現する必要があります。
しかし、ユーザーの視点では単に質問し、回答を受け取るだけです。
最高の拡張分析ソリューションは、強力なデータ可視化機能を提供できるだけでなく、レポートの自動生成にデータの可視化を組み込むことで、情報の共有と共同意思決定を容易にします。
情報を明確に伝えるなら、多くの場合は自然言語が非常に有用ですが、可視化はしばしば、データを比較したりパターンを強調するための最も直感的な手段となります。グラフ、チャート、ダイアグラム、プロット、ヒート・マップなどのデータの可視化は、データを探索し、クエリに明示的に組み込むことを考えていなかったようなつながりを見いだすのに便利な方法です。
これまでは、自然言語の要求をインプットとして受け取り、高度なデータの可視化をアウトプットとして返すには、組立ラインのような方法で動作する複数のモデルの高度な連携が必要でした。しかし、以前はテキストのみに対応していたLLMは、さまざまなモダリティのデータにわたってシームレスに動作できるマルチモーダルAIモデルへと進化を続けており、拡張分析プラットフォームの汎用性はさらに向上しています。
これにより、データ分析へのダイナミックなアプローチが可能になりました。技術者でないユーザーでも関連性や仮説をオープンに探索でき、成果、推奨事項、注目すべき洞察を、ユーザーフレンドリーなインタラクティブなダッシュボードですぐに利用することができます。
NLPが脚光を浴びているものの、Gartner社によるMagic Quadrantの最近の調査結果によると、分析およびビジネス・インテリジェンス(ABI)プラットフォームで最も求められている機能は、自然言語クエリではなく、洞察のオートメーションであることがわかっています。言い換えれば、ビジネス・ユーザーは、結果を得るためのプロセスよりも、結果を重視するのです。1
最高の拡張分析ソリューションは、洞察を得るためにデータを調査する方法を正確に決定する負担を軽減し、ビジネス・ユーザーがその洞察に基づいた行動を考えることに集中できるようになります。表面レベルのNLP機能に加えて、LLMはリアルタイムの意思決定エンジンとして機能します。これにより、最新の拡張分析プラットフォームは、単純なIF-THENルールを使用する場合よりもはるかにダイナミックな方法で、ユーザーの要求の特定のコンテキストに合わせて分析を調整できるようになります。
たとえば、拡張分析ソフトウェアは、リクエストの性質から、どのような種類のデータが調査されるか、どのような分析が望ましいかを推測し、最適なデータの可視化スキームをインテリジェントに提案します。拡張分析ソリューションでは、複数の予測モデルにわたって分析を実行し、最も確実性の高いモデルの予測を強調表示することができます。これにより、プラットフォームは単に予測を出すのではなく、予測プロセスに対する洞察を提供することができます。
また、洞察のオートメーションによって先を見越したデータ分析が可能になり、適切なクエリのための時間をかけることなく、外れ値や新たな傾向をすぐに把握できます。たとえば、自動分析ツールを使用すると、顧客エンゲージメントでのメトリクスの予期しない低下を検知し、顧客体験に何らかの欠点があることを理解して対処するよう、ビジネス・ユーザーにアラートを出すことができます。
最適な分析プラットフォームは、データ分析の複数の視点を提供し、過去を理解し、将来について情報に基づいた意思決定ができる必要があります。分析的洞察には4つの主要なサブセットがあり、いずれも意思決定プロセスには不可欠です。
記述的分析は客観的分析に関係しています。何が起こったのか、何が起きているのかを考えるものです。たとえば、サプライチェーンの文脈では、記述的分析により、資金がどこで使われているか、どこで在庫が不足しているかを調査できます。
診断分析は過去を理解することを目的としており、なぜ物事が起こったのかを問います。たとえば、進行中のマーケティング・イニシアチブの成果が当初の見込みほどうまくいっていない理由は、過去の顧客行動の分析から説明できるかもしれません。
予測分析は未来を予測することを目的としています。何かが起こる確率や、潜在的な行動方針に対して予想される結果を問います。予測分析は通常、ビジネス・インテリジェンス操作の基盤となり、起こりうる結果をより深く理解した上で意思決定を下すためのものです。
処方的分析は、最適な行動を予測することを目的とします。何が起こるべきなのか、または望ましい成果が出る可能性を最大化する方法を問います。処方的モデリングの分野は、提案エンジンなどのシステムを強化し、予測分析と強力な意思決定ロジックを組み合わせて理想的な進路を特定します。
拡張分析プラットフォームはさまざまな重要なメリットをもたらしますが、すべてのビジネスの課題に対処する自己完結型の万能薬ではありません。拡張分析は、適切なデータ・リテラシーを持つ従業員が使用し、強力なデータ・ガバナンス実践と並行して実装することで、最良の結果を生み出す強力なツールと見なされるべきです。
データ・リテラシー: 拡張分析は、データから実行可能な洞察を得るために必要な作業を大幅に減らしますが、こうした洞察はデータ・リテラシーを優先する部署に所属する従業員の手ではじめて活用できるようになります。たとえば、プラットフォームは注目に値する相関関係を発見して提示する可能性がありますが、相関関係と因果関係の違いを判断できるのは、リテラシーのあるユーザーだけです。
データ・ガバナンス:AIを活用した洞察と提案の品質は、その分析を支えるデータセットの質と信頼性に直接依存します。組織全体で処方的分析に対する信頼と自信を確保するには、堅牢なデータ・ガバナンスに投資する必要があります。強力なデータ・ガバナンスにより、データ品質を安定させ、規制コンプライアンスを確保し、データ・ソースをクリーンに統合して、モデル・ドリフトやその他の機械学習の落とし穴を監視することができます。
IBM watsonx BI Assistantはビジネス上の質問に数秒で答え、最も影響力のある決定を下せるように導きます。起きた事柄とその理由、起きる可能性がある事柄、そしてそれに対処する方法を理解します。watsonx BI Assistantは、その理由を明確かつ詳細に説明することで、すべてのビジネス・ユーザーを支援します。
AI搭載による自動化と洞察により、データの潜在能力を最大限に引き出せます。自然言語AIアシスタントはいつでも利用できます。必要なデータを説明するだけで、Cognos Analyticsが驚くようなデータの可視化を実現します。
AIを導入し、柔軟な予測機能で結果を予測します。大規模なwhat-if シナリオから微細なwhat-if シナリオまでをリアルタイムで分析できます。必要に応じて、オンプレミスまたはクラウド(AWS上のサービスを含む)にデプロイできます。組織全体の統合事業計画を自動化し、一元化し、AI駆動型の予測を行動に結び付けます。
注:すべてのリンク先は、ibm.comの外部にあります。
1 "Predicts 2024: How Artificial Intelligence Will Impact Analytics Users," (link resides outside of ibm.com) Gartner, 4 January 2024.