急速に進展するデジタル社会において、データを価値に変え、データ・ドリブンさらにはインサイト・ドリブンで企業競争力を高めていくには、組織の誰もが必要な時に必要なデータに自律的にアクセスし、データから得たインサイトをスピーディーに業務に活かすことのできる環境が必要となります。

この、データ収集から新たな価値の創出・実行までをワンストップ で可能にするデータ活用プラットフォームとして、今注目されているのが「データレイク」です。

データレイクとは?

ビッグデータ時代の到来により、データ分析の対象が多様化しそのボリュームも爆発的に増加しました。IoTセンサー、モバイル端末、ソーシャルネットワーク(SNS) などから日々膨大なデータが得られるようになり、その形態も、画像や音声など、従来の範囲を超える半構造化・非構造化データに拡大しています。

従来は、IT部門が、データ分析の要件にもとづいてデータウェアハウス(DWH)を構築し、利用目的ごとにデータマートを作成していましたが、多種・大量なデータのアジャイルな活用が求められる近年では、あらかじめ分析の視点やデータ構造を決定しておくことはほぼ不可能となりました。

そこで生まれたのが「データレイク」です。生成されたデータを、まずはそのままの形で蓄積し、いつでも必要な構造で取り出せるようにするという考え方です。

データレイクに求められる要件

データレイクは、巨大なデータ・レポジトリーであると考えられがちですが、ただ単にデータを蓄積するだけでは、使えないデータの沼地(データスワンプ)になってしまいます。データを整理・可視化し、いつでも統合・活用できる状態 = 澄み切った湖(データレイク)に整備しておくことで、データをビジネス資源として活用できるようになります。

データレイクは、巨大なデータ・レポジトリーであると考えられがちですが、ただ単にデータを蓄積するだけでは、使えないデータの沼地(データスワンプ)になってしまいます。データを整理・可視化し、いつでも統合・活用できる状態 = 澄み切った湖(データレイク)に整備しておくことで、データをビジネス資源として活用できるようになります。
 

データの品質の保持

データの信頼性を担保する機能

① データの見極め:データ品質プロファイリング

そのデータはどこから、いつ、誰が、どんな目的で、どんなタイミングで入手したものなのか。ソースデータの出所、鮮度、形式、粒度・頻度などに関する品質を、人手をかけることなく簡単に判定・判別できる仕組みが必要です。

例えば、同じ「売上」データであっても、SFA(営業支援システム)で管理されているデータと会計システムで管理されているデータでは、集計の基準や期間が違っている場合があります。こうした差異をあらかじめ明確しておき、簡単に確認できるようにすることで、ユーザーはどのデータを使うべきかを迅速に判断することが可能になります。

② データの浄化:抽出/ 変換 / ロード (ETL) 、クレンジング、マスキング

データを統合する際には、適切なデータの分離や加工を施さなければなりません。大量データの中に混在している重複や誤記、表記の揺れなどを探し出し、削除や統一、ポリシーやルールに則った修正、正規化などを行います。

例えば、日本アイ・ビー・エム株式会社、日本アイビーエム(株)、日本IBMというように表記が違っていても、同じ会社であることが判断できるように“名寄せ”を行ったり、カード情報など社内であっても公開すべきでないデータにマスキングを行うことで、データを利用しやすい状態に整備します。

③ データの品質維持:データ品質モニタリング

定期的にデータレイクの品質をモニタリングし、汚れたデータを自動的に修正する仕組みも必要です。

例えば、顧客の所在地(住所)が変わった、担当者の役職が変わった、といった属性情報の変更、あるいは操作ミスにより一部データに欠損が生じた際に、最新マスターと定期的な照合を行うなどの処理により、データの鮮度を保つことが重要です。


データ活用の支援

ビジネスユーザーが、必要なデータを自ら探し、入手し、分析/活用できるようにする機能

④ データ・カタログ:ビジネス用語検索、来歴管理

データレイクに蓄積されたデータの利用をサポートするのが「カタログ機能」です。これによりエンド・ユーザーは、専門的なデータ用語を知らなくても、日常的に使用しているビジネス用語を使って、自ら必要なデータを自由に抽出することが可能となります。

さらに、個々のデータの出所、信頼性、鮮度、形式、粒度・頻度などの情報も提供され、簡単な操作で確認できる「リネージュ機能」により、ユーザーは安心してデータを利用することができます。

これらの機能により、従来のようなIT部門に依存したデータ活用から脱却し、エンド・ユーザー自身による自律的なデータ活用が促進されます。

IBM データレイク・ソリューション

データ・ガバナンス機能(管理・統合・品質維持)をトータルに提供

IBM InfoSphere Information Server

データの品質保持機能により、データの信頼性を担保し、正しい意思決定を支援するだけでなく、データ・カタログ機能により、ビジネス・ユーザーが、自ら分析目的に合ったデータを探し、入手し、分析/活用できる、セルフサービス・アナリティクスの実現をサポートします。

④ データ・カタログ

メタデータ管理と
来歴把握、ビジネス用語辞書

IBM InfoSphere Information Governance Catalog

データの流れを「見える化」し、データがどこから発生してどのように加工されてきたかを把握する来歴管理機能を提供。

また、各部門のエンド・ユーザーが、日常業務で使い慣れたビジネス用語でデータを検索できるようにするためのカタログを構成。

お問い合わせ

データ活用にまつわる課題をお持ちではありませんか?
IBMはデータ活用のための多様なソリューションを幅広く揃え、ご要望にお応えします。
データ活用に関するご相談・お悩みがございましたら、お気軽にエキスパートにお問い合わせください。

識別コード:Analytics