IBM Storage

DX時代のデータ活用を支えるAIデータパイプラインを実現

2020-10-19

カテゴリー IBM Storage | Software Defined Storage

記事をシェアする:

DX時代の競争を勝ち抜くためにはデータ活用が不可欠ですが、やみくもにデータを集めても自社の優位につながるビジネス価値を生み出すことはできません。データを「貯める」「整える」「AIが学習する」「業務への適用」をトータルにサポートするAIデータパイプラインを構築する必要があります。IBMのストレージ・ソリューションが、高パフォーマンスと高拡張性を両立させたコスト重視のAIデータパイプラインを実現します。

竹田千恵
日本アイ・ビー・エム株式会社システム事業本部ソリューション事業部　ハイブリッドクラウド＆ AIストレージセンター　部長

AI/ビッグデータ領域にフォーカスしたSDS（Software Defined Storage）やオブジェクト・ストレージのエキスパートとして、金融、流通、製造など幅広い業界をまたいだITインフラ基盤提案をリード。AIとストレージを中心とした最新テクノロジーに興味のある方を対象に情報を発信する「AI Storage TOKYO Meetup」でもオーガナイザーを務めるなど、エバンジェリストとしても活動している。 Linkedin →

「データ収集→データ準備→学習→分析」を首尾一貫したAIデータパイプラインが必須

デジタル変革（DX）時代の競争を勝ち抜くために、必要不可欠の条件となるのがデータ活用です。背景として2025年に企業が保有するデータ量は、2016年の10倍に増加すると予測されています。もちろん決して将来の話ではありません。すでに2019年におけるデジタル変革の40％がAIを活用することで行われています。

こうした状況を捉え、「フォーチュン500」にランクインする企業の50%のCEOが、今後AIを積極的に活用していくという意向を示しています。そのうちの60%が業務の効率化やさらなるコスト削減を目指すものであり、22%は新しいサービスや製品開発にAIを活用しようとしています。

ただし、やみくもにデータを集めても効果的なAI活用は実現できません。データをいかに戦略的に貯めて、整え、学習させ、業務へ適用するのか、すなわち「データ収集→データ準備→学習→分析」のプロセスを首尾一貫した、AIデータパイプラインを構築することが非常に重要な要件となります。

まず、データ収集に関しては、従来のビジネスで扱ってきた基幹システムのデータに加え、製造や物流などの現場（エッジ）で生成されるIoT&センサーデータ、パートナー協業のもとエコシステムで共有するデータ、モバイルアプリやソーシャル・メディアなどから得られる消費者のデータなどを、長期的スパンに基づいて蓄積する必要があります。

当然、これらのデータは形式や粒度もばらばらでそのままでは活用できず、データ・クレンジングや前処理などの準備が必要となります。特にAI活用に関しては、教師データを用いたトレーニングやテストを回すためのデータセットの準備も不可欠です。

これを経て、ようやく本格的な学習フェーズに進むことができますが、そこでもマシンラーニング（機械学習）やディープラーニング（深層学習）のフレームワークを導入し、トレーニングとテストを繰り返して学習モデルの精度を高めていかなければなりません。

こうして洗練された学習済みモデルを本番環境に適用することで、はじめて意味ある分析を行うことが可能となり、企業は新たなビジネスの価値を生み出すことができます。

ライフサイクルに合わせてデータを自動で階層化

IBMは、上記のようなAIデータパイプラインをトータルに支えるストレージ・ソリューションを提供しています。最大のポイントは、AIデータパイプライン全般にわたってデータを自動的に階層化し、効率的なデータ保管を実現することにあります。

具体的にはIBM Spectrum ScaleというSDS（Software Defined Storage）を活用することで、分析が終わったデータを高速なI/O性能をもつフラッシュ・ストレージから低速・大容量のHDDへ移動するなど、コスト効率のよいデータ保管を実現します。

なお、各データは所有者や拡張子、サイズといった属性のほか、アクセス頻度や経過時間などのしきい値により、設定したいポリシーに基づいて柔軟かつ自動的に振り分けられるため、ユーザーは階層化が行われた後も保管場所を意識することなく、目的のデータに対して常に透過的なアクセスを行うことができます。

さらに利用頻度の低下したデータについても、ライフサイクルに合わせた管理を継続することができます。IBM Spectrum ProtectやIBM Spectrum Archive、IBM Cloud Object Storageといった機能を活用することで、テープ・ライブラリーやクラウド・ストレージなどに柔軟にアーカイブすることができるのです。

こうした一連のストレージ・ソリューションにより、コスト重視の観点で高パフォーマンスと高拡張性を両立させたデータの「貯める」を実現します。

また、データを「整える」に関しては、大容量の非構造化データの自動タグ付けを行うことでデータ検索の操作性を向上します。IBM Spectrum Discoverという機能を使えば、例えば画像データに写っているものに対して、標準で付与されているシステムにメタデータとは別に任意のカスタムタグ付けを行うことも可能です。

さらに、「AIが学習する」「業務への適用」といったフェーズでは、IBM Watson Machine Learning Accelerator のほか、Spark MLやSplunk、TensorFlow、Cloudera、Hortonworks、SAS Gridなど、OSS（オープンソース・ソフトウェア）やサード・パーティー製品を含めたAIやアナリティクスの多彩なツール群を活用することが可能です。

不確実性がますます高まっていく時代に向けて、ビジネス環境の変化に対する柔軟な適応力をもったストレージ・ソリューションを提供することで、IBMはお客様のデジタル変革を加速していきます。

ライフサイクルに合わせてデータを自動で階層化するソリューションに関するご相談はこちら