S
Smarter Business

散在データへの統合的なアクセスがカギ!データ・ファブリックで適切なデータ活用を

post_thumb

※新型コロナウイルスの拡大防止に最大限配慮し、写真撮影時のみマスクを外しています。

大久保 将也

大久保 将也
日本アイ・ビー・エム株式会社
IBMコンサルティング
Data Servicesリーダー
パートナー

1999年に日本アイ・ビー・エム株式会社に入社。データベース・アーキテクトとして特にメディア業界の基幹システムや会計システムの構築をご支援。2009年にデータ利活用を専門に支援する組織の立ち上げから参画。その後15年以上に渡りさまざまな業界のお客様のデータガバナンス整備やデータレイク、データウェアハウスを組み合わせたデータ基盤構築をリードし、お客様の変革をご支援。2019年よりData ServicesのJapanリーダーを務める。

 

田中 孝

田中 孝
日本アイ・ビー・エム株式会社
テクノロジー事業本部
Data and AIエバンジェリスト

2002年 に日本アイ・ビー・エム株式会社に入社。2015年にWatson事業部に加入し、複数のAIソリューション構築プロジェクトをリードアーキテクトとしてリード。2018年よりData and AIテクニカルセールスチームのリーダーを経て2021年から現職。Data and AI領域の幅広い経験・知見を活かし、社内外向けセミナー講師として講演多数。

 

データを収集するだけにとどまらず、いかに適切に活用するかは、DXを進めるうえで避けて通れない課題だ。その先のアウトカムを考えることなく、変革を実現したとは言えない。

データは、企業内や組織内のあらゆる場所に散在し、日々増え続けている。全体を把握することが人間だけの力では難しくなっている中で、多くの企業がデータをどのように結びつけるかを課題としている。そんな状況において注目されているのが、「データ・ファブリック」だ。

データ・ファブリックと、それをビジネス領域にさらにフィットする形で日本アイ・ビー・エム(以下、IBM)が構築した「インテリジェント・データ・ファブリック」。それらの概念について、IBMコンサルティング Data Servicesリーダー 大久保 将也と、テクノロジー事業本部 Data and AIエバンジェリストの田中 孝に聞いた。

 

データが組織内で散在していることと、変化し続ける法規制への対応がボトルネック

IBM 大久保 インタビューカット

 
ーーDXが流行語となり、業務のデジタル化やデータの収集が進んでいます。しかし、データの活用となると、いまだに課題を感じている企業が少なくありません。企業のデータ活用の状況をどう見ていますか。 

大久保 業界を問わず、さまざまな企業がデータ活用に向けて動いています。そこで大きな問題の一つとして挙げられるのが、企業や組織の中で“必要なデータが散在している”ことです。過去のデータがオンプレミスに残っていたり、最近のデータは新しく導入したクラウド上にあったり、日々多くのデータがエッジデバイスでも生まれていたり、という状況の企業様がほとんどではないでしょうか。

データの適切な活用には、各データの所在が明確で、参照可能であることが必須です。その状態に持っていくためにはどうすべきかが、課題とされています。

法規制への対応も進めなければなりません。日本では個人情報保護法の改正があり、国外ではGDPR(欧州連合の個人データ保護規則)をはじめ各国で則るべきルールがあり、特にグローバル企業はそれぞれに間違いなく対応しなければならない。しかも、法律は常に変化しますので、“一度対応すれば終わり”ではなく、常に変化をキャッチアップしてデータを適切に使わなければなりません。その仕組み作りで苦労されている企業様も多くいらっしゃいます。

また、データを活用する・できる人、そして活用の必要を感じている人が増えている、というのもポイントです。かつては、基本的にデータ・サイエンティストをはじめとした専門的な知識やスキルを持つ層がアクセスしていましたが、現在では一般のビジネスユーザーでもアクセスでき、かつ理解できるような体制や仕組みも整えなければなりません。

このように、さまざまな壁がある状態です。

 
ーー散在するデータ・ソース、セキュリティーとプライバシー、ユーザーの広がりなどの課題に対応しながらデータを活用するためには、どのような考え方が必要になるのでしょうか。

田中 データ収集を目的に、データ・レイク※1やデータ・ウェアハウス※2を構築する企業は多くいらっしゃいます。しかし、そこにデータが蓄積されているからといって、必ずしも使えるものと限らないのは大きな課題です。

特にデータレイクの場合、データを蓄積したはいいものの、中にあるデータの意味を理解して使える人が限定的という話をよく聞きます。

大久保 ビッグデータの時代になり、そもそも扱うデータの量も種類も増えています。ところが、データは統合されておらず、使いやすい状態になっていない。ある程度整備してきれいにしなければ、AIを通しても適切な値は出てきません。まずはすぐに使う範囲だけでいいので、データを整備する作業が必要です。

そこで、業界では「データ・ファブリック」という考え方が提唱されています。


※1 使用目的の定義されていない、ローデータのプール。多数のソースからのデータを元のままの多様な形式で保持するもの。データサイエンティストなどの専門家がアクセスする
※2 特定の目的のために処理された構造化データが貯蔵されているもの。多くの場合、ビジネス担当者のレベルでもアクセスが可能

 

データへの統合的なアクセスと、使用のガバナンスを担保する基盤「データ・ファブリック」

データ・ファブリックのイメージ

ーー「データ・ファブリック」とはどのような考え方でしょうか。

大久保 概念自体は大学や研究機関で以前からありましたが、数年前に調査会社のGartnerが定義をまとめた(IBM外のWebサイトへ)ことで急速に広がりました。IBMでは、データ・ファブリックには次の4つの機能が不可欠だと考えています。

  1. 散在したデータにアクセスするためのレイヤーとなる「データ仮想化」
  2. 自社にあるデータのカタログとなる「データカタログ」
  3. データの関係性を示し、業務に紐づけるための「データの標準モデル」
  4. 適切な人だけが適切なデータを扱うための「アクセス制御」

あちこちにあるデータをデータウェアハウスやデータレイクに持ってきて統合するより、データが散在している状況を認め、仮想化のレイヤーを構える。これが「データ仮想化」であり、これにより、ユーザーはデータがどこにあるのかを気にすることなく、必要なデータを取得して分析などに使うことができるようになるという考え方です。

もちろん、こちらは統合前のデータへのアクセスが許容されることが前提となっているため、それが叶わない場合はアクセスできる領域へのデータの移動が必要になります。

「データカタログ」は、テクニカルなメタデータもしくはビジネスのメタデータなどを管理することを指しており、「データの標準モデル」と併せて用いることでデータ同士の関係性が把握でき、手元にあるデータと容易に紐づけられます。

4つめの機能としてIBMが重要視しているのが、「アクセス制御」で、適切な人が必要なデータにアクセスでき、監査も可能な状態を作ることができます。

これら4つの機能を整備することで、データの専門家やビジネスユーザーなどさまざまな人がデータを活用できることになります。

 
田中 テクノロジーの視点から見ると、これまでデータウェアハウスがあり、ビッグデータの時代になってデータレイクが台頭し、最近になってデータ・ファブリックという考え方が出てきたという変遷を辿っています。データ・ファブリックは、データウェアハウスやデータレイクを否定するものではなく、補完するものと理解するのがポイントです。

IBMは、データ・ファブリックを進めるにあたって、データウェアハウスなどこれまでの資産をすべて是とするという発想を持っています。既存のシステムを包含するものを作るアプローチです。

 
大久保 このデータ・ファブリックをさらに拡張した概念を、IBMでは「インテリジェント・データ・ファブリック」と称しています。

「インテリジェント・データ・ファブリック」においては、データカタログの作成やデータ探索の部分にAIを組み込むことで、よりユーザー・フレンドリーなデータ・アクセスを実現します。実現にはさらなる技術の進歩が必要となりますが、2025年頃にはこれが実現できると想像しています。

IBM 大久保 田中インタビューカット

 
ーーインテリジェント・データ・ファブリックはどのように実現していくのでしょうか。

田中 大久保が示したデータ・ファブリックの4つの機能からわかるように、1つのソフトウェアを入れて完成ではなく、複数のテクノロジーを組み合わせて実現します。

IBMでは、「Cloud Pak for Data」という製品が中心的な役割を担います。Cloud Pak for Dataは2018年に提供を開始しており、データ・ファブリックの考え方を取り入れ、一気通貫のプラットフォームとして進化させてきました。データ仮想化の「Watson Query」、データカタログの「Watson Knowledge Catalog」などのコンポーネントを含みます。

Cloud Pak for Dataに含まれるコンポーネントだけでデータ・ファブリックのアーキテクチャーを構築することもできますが、データ分析については他のベンダーのツールを使いたいというケースもあると思います。他社のツールも組み合わせて使えるオープン性も備えています。

IBMは全体として、ハイブリッド・クラウドやマルチ・クラウドを支えるテクノロジーを提供する方向に舵を切っており、データの部分でインテリジェント・データ・ファブリックは中心的な技術となります。

大久保 そもそもデータ・ファブリックの認知や導入の拡大・浸透はこれからです。グローバルの調査では、日本企業のデータ・ファブリックの導入率はわずか1%でした。これから広がっていく考え方だと思います。ただ、データカタログは導入していたり、一部でデータ仮想化を導入していたりする企業もあるので、実装は少しずつ進んでいると見ています。

導入の課題は、データの使う側と提供する側のそれぞれに存在します。特にデータを提供する側では、アクセス権やデータの品質などについて責任を持つチームが必要になります。海外では、最高データ責任者(CDO)やデータマネジメントチームが組成されているケースが多いですが、日本ではそういった例は多くありません。だからと言って、現在のIT部門ですべてをやるとなると難しい部分です。日本でデータ活用を推進するための最大の障壁と言っても過言ではないかもしれません。

 

あらゆる領域を横断しつつ、適切なデータを適切な形で活用できるインテリジェント・データ・ファブリック

IBMが提唱するインテリジェント・データ・ファブリックのイメージ

 
ーーデータ・ファブリックを導入することで、どのようなビジネス上のメリットが得られるのでしょうか。

大久保 基本的なことですが、ビジネス上の用途別に必要なデータを探せる点が大きいのではないでしょうか。ユーザーがデータを探し、取得したデータの品質の確認もできるため、施策の最初の段階がスムーズになります。公開されている分析ライブラリーを使えば、さらに可能性が広がるでしょう。

田中 従来のデータ・レイクやデータ・ウェアハウスのように最初に大きな基盤を構築する必要がないため、構築の負荷を大きく軽減できる点もポイントです。

データの管理やガバナンスを自動化、自律化できるため、コストの削減も期待できます。特にカタログについては、従来のやり方では作業負荷が大きく、着手はしたものの途中で頓挫してしまったというお話もよく耳にします。そうした事例の分析結果を製品にフィードバックしており、Cloud Pak for Dataでは、カタログ整備を支援する機能も搭載しています。データ属性などのテクニカルメタデータの収集は自動化されており、ビジネスメタデータについては完全自動化とまではいきませんが、AIによるレコメンデーションを使うことで作業を大幅に軽減します。

また、データを提供する側と使う側のコミュニケーションやコラボレーションを促進するプロセス的な機能も提供しています。

 
ーーインテリジェント・データ・ファブリックでお客様のどのような課題を解決したのか、事例があれば教えてください。 

田中 法規制への遵守に用いた事例を紹介します。

グローバル展開する海外の金融企業のケースですが、拠点が置かれる国の金融規制に対応する目的で、国ごとにデータレイクを構築していました。国ごとのデータ分析はデータレイクで管理・分析できますが、通常は国をまたいだ顧客の行動分析や予測は簡単にできません。

そこで、データ・ファブリックレイヤーを導入し それぞれの法規制に対応しながらデータを論理的に統合し、一元管理できるようにしました。実際には各国のデータ・レイクにアクセスしているのですが、ユーザーはデータ・ファブリックにアクセスするだけで各データを活用できます。

さらにアクセス制御も組み込み、ある国で規制により持ち出し不可のデータがあった場合、各国を横断した分析を行う際に、その国のデータは参照されないようにするといった制御も可能にしました。規制に準拠しつつ、国をまたいだデータ分析の取り組みが加速した例と言えます。

 

AIを用いるデータ活用は終わりのないジャーニー

IBM 田中 インタビューカット

ーーインテリジェント・データ・ファブリックを提供するIBMの強みはどこにあるのでしょうか。
大久保 IBMのインテリジェント・データ・ファブリックは日々アップデートを続けており、今後もさまざまなニーズに合わせて機能が追加されていきます。ユーザーがやりたいこととデータの間にはまだまだギャップがあり、ここを埋めるお手伝いができればと思っています。

IBMはシステム導入や技術サポートだけでなく、そもそものビジネス課題とその解決方法を明らかにするコンサルティングまで含め、エンドツーエンドでご支援しながら全体のアーキテクチャーの構築が可能です。

田中 技術面の補足をすると、データ活用は何らかのテクノロジーを入れれば終わりというものではなく、少しずつ積み上げてアーキテクチャーを構築する必要があります。Cloud Pak for Dataは、IBMがお客様のデータ活用を支援する中で得られたノウハウや実際の利用形態、お客様の声を反映して進化させています。

IBM自身もCloud Pak for Dataを使用しており、CDOをリーダーとするデータ基盤のチームがデータ活用の取り組みを通じて蓄積した知見なども含まれています。そのため、断片的なテクノロジーではなく、他社技術も含めてエンドツーエンドにデータ基盤の構築を支援できることも大きな魅力です。

ーーデータ・ファブリックを導入して活用していく先の展開は、どのようになるのでしょうか。 

大久保 データの活用が進めば、課題はデータの発生源に移っていくでしょう。それにどう対応するかが大きなチャレンジになると予想しています。とはいえ現段階では、まずデータを使うことを実践し、そのための課題を見つけ、データ・ソースまで含めて問題解決を加速させていく企業が、変革を進めていくと言えるでしょう。

可能性は無限ですが、データ活用はあくまで手段です。目的を明確にしないとあらゆる施策が意味を成しません。データ活用の意義を理解するボトムアップ、活用できる形にデータを整備するトップダウンの両方が必要であり、その中間にDXをしっかり進めるリーダーシップがあると進めやすいでしょう。

IBM 大久保 インタビューカット

 
田中 データ・ファブリックの導入に着手し、ある程度の仕組みが構築できた後の課題として、データの発生源から活用までをOps化することが一つのポイントになってくるでしょう。つまり、人がデータを集める、人がデータを加工する、人がデータを分析する、人がデータをデプロイするのではなく、DevOpsのように全体のプロセスをいかに自動化するかに目を向けていくことです。

また、データ・ファブリックが浸透して業務の中でAIが使われるようになると、AIの倫理、信頼性、公平性に視点がシフトしていくでしょう。実際に、先行している米国では始まっています。顧客接点でお客様に何かしらの予測結果を提示する、採用の判断に使うなどの利用場面で、本当にAIが出した予測を信じていいのかという疑問が生まれます。ここに対処していく必要があります。

データ活用やAIは、データウェアハウス、データレイク、今回のデータ・ファブリックと次々と新しいテーマに取り組んでいかなければならない分野です。IBMでは、データ活用は「Journey to AI(AIに向かうジャーニー)」と考えています。

繰り返しになりますが、ある時点で特定のテクノロジーを導入して終わりではなく、ビジネスの変革を続けていく“旅(ジャーニー)”と捉え、自社の現在のステージを認識し、次のステージに進めるにはどうすればいいのかと、一歩一歩階段を登るアプローチが最も効果を生むと考えています。IBMではお客様のステージに合わせて、ご支援して参ります。