IBM watsonx.data integrationで非構造化データ用のETLパイプラインを構築しましょう

著者

Scott Brokaw

Vice President, Product, Data Integration

IBM

Sophie Jin

Product Manager

Innovations Lead

Caroline Garay

Product Marketing Manager

IBM Data Integration

2025年6月11日、データ統合の新しいアプローチであるwatsonx.data integrationの提供を開始しました。このソリューションは、組み込みのオブザーバビリティーに基づいて、バッチ、リアルタイムの・ストリーミング、データ複製のパイプラインを作成するための単一のコントロール・プレーンを提供します。

同じソリューション内で、チームは構造化データ・パイプラインと並行して再利用可能な非構造化データ・パイプラインを構築できるため、これまでアクセスできなかったデータの金鉱を解放して新しいユースケースを強化し、現代のデータ環境の進化する需要を満たすことができます。watsonx.data integration（UDI）機能を使用すると、ユーザーは、ドキュメント、PDF、PPT など大量の非構造化データをわずか数分で取り込み、変換、処理するパイプラインを直感的に構築できます。

この製品は、IBM Researchからの画期的なオープンソースと独自のイノベーションを組み合わせたものです。クラス最高の製品機能には次のようなものがあります。

事前構築済みコネクターを使用した、幅広いビジネス・ソースからの多様な非構造化データのシームレスな取り込み
IBM Researchが支援する構築済みの演算子によるドラッグ・アンド・ドロップ変換で、非構造化コンテンツをクリーニング、正規化し、AI用に準備します。
自動ベクトル・ストア入力により、検索拡張生成（RAG）やその他のAIユースケース用に、サポート対象ベクトル・データベースに埋め込みを保存できるようになります。

従来十分に活用されていなかった企業データを処理できるように設計されたwatsonx.data integrationは、AIと分析のための非構造化データを解き放つうえで大きな前進となります。

UDI機能の主な機能

ほとんどの公開データは、今日の基盤モデルですでに適切に表現されているため、真の競争優位性は、企業データを活用することで得られます。ただし、企業データの90%は構造化されておらず、文書やPDFからEメール、画像、ログに至るまで、未活用のままの圧倒的な量の情報であり、そのほとんどは、従来の分析やAIワークフローの手の届かないところにあります。そして、アクセスと管理が複雑であるため、現在は1%しか生成AIで使用されていません。

従来の非構造化データ・アプローチの課題に関する詳細はこちらをご覧ください。IBM watsonx.data integrationとその広範なエコシステムのツールは、これらの課題に正面から対処するように設計されています。以下は、組織が今日の急速に進化するデータ環境に対処するのに役立つUDIの主要な機能です。

1. 事前構築されたコネクター

このソリューションには、一般に使用されるさまざまなデータ・ソースと形式（および関連するメタデータとアクセス制御）をユーザーが大規模に取り込むことができる、事前に構築されたコネクターが含まれています。市場には一部の非構造化コネクターが存在しますが、ドキュメントや権限の時間の経過に応じて動的に適応できるものはほとんどありません。

2. 事前構築されたオペレーター

IBM Researchと共同で開発されたwatsonx.data integrationは、独自のイノベーションと主要なオープンソース・テクノロジーを組み合わせて、非構造化データ処理を最新のデータ・パイプラインに組み込みます。そのビジュアル・キャンバスには、個人情報（PII）マスキング、HAP（憎悪、虐待、冒涜）検知、品質フィルタリング、言語検知、信頼度スコアリングなど、テキストやその他のモダリティに特化した演算子が含まれています。開発者は、カスタム・コードを作成したり保守したりすることなく、多様なファイル・タイプを大規模に処理するための単一のパイプラインを設計できます。構造化データ用のドラッグ・アンド・ドロップELTと同様に、watsonx.data integrationにより、非構造化データにも同じ直感的な低コード/ノーコードのエクスペリエンスがもたらされ、よりプログラム的に作業することを好むユーザー向けにフル機能のPython SDKも提供されます。

さらに、埋め込み、チャンク化、ベクトル化のための事前構築された演算子により、ユーザーは未加工ドキュメントを下流のAI向けに最適化された構造化表現に変換できます。これらの演算子は、非構造化コンテンツを意味論的に有意なベクトルに自動的に変換し、RAG、ドキュメント分類、インテリジェント検索などのユースケースを可能にします。これらはすべて、機械学習（ML）の深い専門知識を必要とせずに実行できます。

3. 拡張性と最適化

非構造化データ統合のこのサポートは、ペタバイト規模の複雑な非構造化コンテンツを効率的に処理できるように設計されています。10MB以上（数千のファイルに及ぶ）のドキュメントは、統合された高性能フォーマットに圧縮されるため、迅速な処理と再処理が可能になります。このアーキテクチャーは、エンタープライズ規模の非構造化データの要求を満たすように特別に構築されています。

4. 動的パイプラインでの増分更新

パイプラインは、自己更新データ構造をサポートします。ソース・ドキュメント（たとえば「ドキュメント A」）が新しいバージョンに更新されると、差分のみが取得され、ベクトル・データベースなどの下流にシームレスに伝播されます。その結果、大規模なパイプラインは、完全な再処理を必要とせずに最新の状態を維持できます。

5. アクセス制御リストシステム（ACLs）

ACLのネイティブ・サポートにより、データ・パイプライン全体でドキュメント・レベルの権限が確実に保持されます。つまり、ユーザーは表示が許可されたデータのみにアクセスできます。非構造化データは複数のチームやアプリケーションにわたって流れるので、セキュリティーやコンプライアンス、信頼を維持するうえでこのデータは極めて重要です。

オープンソースの技術的基礎

結局のところ、1つの組織では、前述の問題を単独で解決することはできません。watsonx.data integrationによるUDIサポートは、最新のオープンソースツールに基づいた柔軟なインフラストラクチャー上に構築されています。以下は、この基盤を形成するコア技術コンポーネントです。

1. 現実世界のLLMの要求から誕生

watsonx.data integrationによるUDIのサポートは、Graniteファミリーの基盤モデルを独自に構築したIBMの経験を基に開発されました。Graniteのトレーニングに使用される12兆トークンの処理と準備により、既存の非構造化データツールの極めて重大なギャップが明らかになりました。これに応えて、IBM Researchは、テキスト、コード、言語、画像などの形式にわたって堅牢なクリーニング演算子を提供するモジュール式フレームワーク、Data Prep Kit（DPK）とData and Model Factory（DMF）を開発しました。厳しいテストに合格してきたこれらのコンポーネントは現在、watsonx.data integrationにパッケージ化されており、高スループットの本番環境レベルのユースケース向けに設計されています。現在、DPKはLinux Foundationを通じてオープンソース化されており、高度な非構造化データツールへのアクセスを民主化するというIBMの使命を引き継いでいます。

2. クラス最高の抽出機能

watsonx.data integrationのUDI サポートには、GitHubスターが30,000を超えるオープンソースのIBMイニシアチブ、Watson Document UnderstandingおよびDoclingも組み込まれており、最先端のドキュメント解析とエンティティ抽出を実現します。これらのテクノロジーは、テーブル抽出を含む複雑な抽出タスクに優れ、業界をリードするスピードと精度を備えています。

3. 柔軟なベクトル・ストアのサポート

Milvusなどのオープンソース・オプションを好む場合でも、管理されたベクター・データベースを好む場合でも、watsonx.data integrationのUDIはサポート・オプションを提供します。ベクトル化パイプラインはプラットフォームにネイティブに組み込まれているため、RAGおよびセマンティック検索ワークロードの優先ストレージ・ソリューションに迅速に導入できます。

4. LangChainとオーケストレーションの統合

IBM watsonx.data integrationは、Langchainやその他の一般的なオープンソースのフレームワークとの統合を積極的かつ試験的に導入しており、コミュニティー主導のイノベーションの真の高まりをプラットフォームにもたらします。これらの統合により、ネイティブのwatsonx.data integrationパイプライン内で直接、Langchainを介して構築または活用される機能のフルスタック・オーケストレーションが可能になり、本番環境での使用に必要なエンタープライズ・グレードのガバナンス、セキュリティー、拡張性が維持されます。

未加工のコンテンツをAI対応の洞察に変換する

IBM watsonx.data integrationにより、お客様はオープンソースのイノベーションと独自のエンタープライズ・テクノロジーの強力な組み合わせを通じて、非構造化データの可能性を最大限に解き放つことができます。パーソナライズされたコンテンツ生成から請求書の集計、エージェントの意思決定まで、UDIは生のコンテンツをAI対応の知見に変換します。この機能は、現在IBM watsonx.data integrationの一部として利用可能です。

このサービスの特徴は、構造化データと非構造化データを1つのプラットフォームに統合できることです。これにより、パイプラインの構築とツールの無秩序なスプロール現象が簡素化され、成果の達成を加速されます。ユースケースに関係なく、watsonx.data integrationは、すべてのデータからビジネス価値を解き放つための基盤となります。

watsonx.data integrationを無料でお試しください

詳細はこちら