非構造化データの3つの主要な課題を克服する

グリッド上に浮かぶ白い四角いプラットフォームとその上に青い立方体がある3Dレンダリング

執筆者

Dinesh Nirmal

SVP

IBM Software

Alice Gomstyn

Staff Writer

IBM Think

信頼できるデータは、企業が生成AIイニシアチブを成功させる上で非常に重要です。企業は、洞察の優れた源となり得る非構造化データを思いどおりに活用できずに苦労しています。企業が生成するデータの約90%は非構造化されており、貴重な情報はEメール、PDFドキュメント、動画ファイルなどの形式で保存されています。1

幸いなことに、ソリューションとアプローチが進化したことにより、企業は非構造化データを整理し、アクセスし、そこからインテリジェンスを引き出すことができるようになりました。Thinkの開発者の一人であるAlice Gomstynは、IBM Softwareの上級副社長であるDinesh Nirmalと対談し、企業がこれまでは手の届かないと考えられていたデータの山の潜在能力をどのように解き放つかについて話し合いました。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

Gomstyn:非構造化データの使用に関して、組織はどのような課題に直面していますか。

Nirmal:非構造化データには主に3つの課題があります。1つ目は拡張性です。非構造化データをどのように拡張し、どのように管理できるかという課題です。2つ目は、それに関連する生成AIのパフォーマンスと精度をどのように確保するかという点です。3つ目は、非構造化データと構造化データを相互に関連付けて、どのようにデータから価値を引き出せるかという問題です。

Gomstyn:拡張性の課題と、その解決には何が必要かについて詳しく教えていただけますか。

Nirmal:非構造化データは、何百ものフィールドがあり、その一部が大量フィールドやセキュア・フィールドである可能性があるという意味で、より複雑です。これらのドキュメントを取り込む場合、管理された取り込みであること、およびデータがデータレイクハウスなどの管理されたストレージに保存されることが重要になります。

データ・パイプラインにもガバナンスが必要です。オブザーバビリティーと監視をどのように組み込むかという課題があります。パイプラインにずれが生じたり、パイプラインに変更が生じたりした場合、それをどのように迅速に特定して解決できるでしょうか。これらのパイプラインは複雑かつ長くなる可能性があり、全体を通して正しい結果、実行時間、パフォーマンス、精度が得られることを確認する必要があります。パイプラインを構築、管理、監視できるようにするにはツールが必要です。

企業であれば、セキュリティーも欠かせません。データ・セキュリティーは、データが失われないようにするための重要な要素になります。データが確実に暗号化されるようにするためのデータ・セキュリティー・ツールがあります。したがって、規模を拡大していく際には、構造化側で採用しているガバナンスとセキュリティーが非構造化側にも確実に適用されるようにする必要があります。

Gomstyn:2つ目の主要な課題である、生成AIモデルのパフォーマンスの実現についてはどうでしょうか。

Nirmal:そこには大きなチャンスがあります。なぜなら、生成AIが成功するには、これらのモデルにトレーニングとプロンプトのために管理された信頼できるデータを提供する必要があるからです。

ガバナンス・ツールではデータへのアクセスも可能になります。ガバナンス・ツール(データ・カタログなど)を使用すると、非構造化データをデータサイエンティストやプロンプト・エンジニアが利用できるようになり、非構造化データを使用してモデルをプロンプト・チューニングできるようになります。

ガバナンスとイノベーションは密接に関連しています。データのセルフサービス化を実現するために真に革新を起こすのであれば、セルフサービス化を実現するためのガバナンスを整備する必要があります。データ製品の観点から見ると、そのデータをセルフサービスで利用できるようにすることが、優先すべき最初の要素です。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

Gomstyn:構造化データと非構造化データを相関させるという3つ目の課題にはどのように対処しますか。

Nirmal:現状では、ドキュメント形式の非構造化データがある場合、そのドキュメントを複数の部分に分割またはさらに細分化し、ベクトル・データベース内に埋め込みデータとして保存する必要があります。

問題は、データをどこに分割しているかがわからないため、精度が失われることです。表の真ん中でデータをチャンク化またはカットオフしたとします。その後表を戻すと、表の半分を戻すことになり、正確さが失われます。

実現できることデータをベクターDBに保存するだけでなく、そのドキュメントのトランザクションの側面も取得し、トランザクション・データベースに格納します。そして、自然言語クエリーがある場合は、両方の側面を比較して、データをどのように統合すれば、精度とパフォーマンスが向上するかを検討します。ここでRAG SQLまたはGraph RAGが役立ちます。これらを使用すると、より高いレベルの精度を実現できます。これが、トランザクション・データベースとベクターDB上のデータを確実に相関させる上で重要です。

Gomstyn:非構造化データを効果的に管理するためにITリーダーが身につけなければならない最も重要なスキルと能力は何でしょうか。

Nirmal:データ・エンジニアリングは、非構造化データに極めて重要な要素です。構造化データでは、データ・エンジニアリングは確立されていますが、非構造化データでは、膨大な量のデータがあるため、あまり確立されていません。

しかし現在では、ガバナンスやセキュリティーなど、あらゆるものが非構造化データにまで浸透しつつあります。そこで、データを文字どおりエンジニアリングし、データ・パイプラインとして利用できるようにするデータ・エンジニアが必要です。非構造化データ用のデータ製品を作成し、すべてのデータサイエンティストとエンジニアがセルフサービスを利用できるようにする必要があります。データ・エンジニアが構造化データ側で使用するスキルは、非構造化データ側でも使用できます。ただし、適用される規模ははるかに大きくなります。

Gomstyn:非構造化データ・パイロット・プロジェクトの成功をどのように測定しますか。

Nirmal:真の投資収益は、企業のエンドユーザーにとって価値が生まれたときに得られます。例えば、電話会社に電話すると、カスタマー・サービス担当者が電話に出ます。私が質問をすれば、答えを伝える前に調べなければならないでしょう。

しかし今では、生成AIが使用されているので、私は自分自身でオンラインで問題を解決できます。請求書文書のような非構造化データ形式にアクセスできるアシスタントやチャットボットに簡単な質問をするだけで、15秒もかからないうちに、請求書の概要やアカウントに関する情報が返答されます。こうしたセルフサービスにより、多くの時間を節約できました。オペレーターが電話に出るのを15分も待つ必要もありません。指先で操作できます。生成AIを導入したことで、エンドユーザーである私自身で解決できるようになりました。

これは、特に非構造化データにおいて、生成AIが推進する生産性、時間の節約、最適化に関する側面です。

このインタビューは、明瞭さと長さを考慮して編集・要約されています。

関連ソリューション
データベース・ソフトウェアとソリューション

IBMのデータベース・ソリューションを活用して、ハイブリッドクラウド全体のさまざまなワークロードのニーズに対応しましょう。

データベース・ソリューションの詳細はこちら
IBM Db2を使用したクラウドネイティブ・データベース

構造化データの保管と管理に高性能で拡張性と信頼性を備えたリレーショナル・データベースであるIBM Db2をご覧ください。IBM Cloud上でSaaSとして、もしくはセルフホスティングとしてご利用いただけます。

Db2の詳細はこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

IBMのデータベース・ソリューションを活用して、ハイブリッドクラウド全体のさまざまなワークロードのニーズに対応しましょう。

データベース・ソリューションの詳細はこちら IBM Db2の詳細はこちら