SPSS Modeler ヒモトク
データ資源のマネタイズを加速〜 Hortonworks Data Platformと IBM Analyticsのコラボレーション
2017年10月19日
カテゴリー SPSS Modeler ヒモトク | アナリティクス
記事をシェアする:
データ資源のマネタイズを加速〜 HDPと IBM Analyticsのコラボレーション
Hortonworks Data Platform(以下、HDP)に格納しているデータはそのままでも様々なデータ処理が可能ですし、みなさんもこれまでビッグデータを十分活用されていたことと思います。
それに加えて本年より、HortonworksとIBMのアライアンス締結によって、 「データサイエンス」の活用能力が飛躍的に高まりました。市場から高い評価を受けている、幅広いIBM Analytics製品がHDPに対応したことで、データサイエンティストやデータエンジニアのタスクが強力にサポートされます。本ページではIBM製品によるデータサイエンス機能の強化について、わかりやすく簡潔にご説明したいと思います。
(1)Data Science Experience
Data Science Experience(以下、DSX)はその名の通り、データサイエンティストのための強力な分析基盤です。DSXがその効果を特に発揮する利用シーンとして、分析データが膨大なビッグデータに及ぶ場合や、複数のデータサインティストと関連するメンバーがチームとしてデータサイエンスに取り組む場合などがあります。
[メリット1] クラスタ構成済みのSpark環境がすぐに利用できる
データ分析に利用されているデファクト的なオープンソース・ソフトウエアとしてPythonやRがありますが、分析やモデリングを行う際に取り扱うデータ量が、1台のサーバーでは処理しきれないビッグデータに達することがあります 。このような場合、PythonやRをOS上で動かす代わりに、Apache Sparkを利用した並列処理プラットフォームでPython、Rを利用する こと が解決策となります。インメモリー処理による分散並列実行によって 高速にデータ処理できますし、SparkMLを利用したビッグデータに対する機械学習ライブラリーが利用できるようになります。大量データの集計も、Spark SQLを使って手軽に行えます。
ただ留意すべき点は、通常そのようにクラスタ構成が必要となるビッグデータ対応のSpark環境を準備するには、分析者自身では対応が難しいということです。システム基盤担当にシステム基盤の設計・構築・運用を委ねる必要があり、利用できるようになるまで時間と労力がかかります。これに対して、IBMのDSXを利用すれば、IBM Cloud上にクラスタ構成済みのSparkと運用環境がすでに用意されていますので、分析者が必要な時にすぐに利用開始できます。オンプレミス環境を利用される場合も、ローカル版のDSXを利用することで同様な構成がすぐに使用できるので、データサイエンティストの要望に迅速に応えていくことができます。
[メリット2] エンタープライズユースのためのプロジェクト資産管理機能
これまでは分析データ資産や分析データを属人的に管理していることが多く、データ活用の妨げになることがありました。DSXではデータサイエンティストを含めて企業内で組織的な基盤活用 が実現でき、ガバナンスとデータ活用促進を両立させることができます。また分析資産の管理はDSX内だけで行うのではなく、アプリケーションエンジニアとの連携や既存のプロジェクト管理体系のために、外部のGithubと連携していくことも可能です。
[メリット3] 機械学習の生産性を高める
様々なモデリング手法を利用者が知らなくても機械学習ができるよう、IBM Machine Learningという機能で自動モデリングを実現しています。また今後の機能追加として、SPSS Modelerのようなユーザーインタフェースを提供する SPSS Modeler Canvas や、IoTからのデータをリアルタイムに分析していくためのSpark Streaming 機能の追加が予定されています(現在ベータ提供中)。オープンソース・ソフトウエアのスキルと能力を活かしながら、DSXならではの生産性の高い機械学習環境を利用できます。
DSXで機械学習したモデルは、自動的にBluemixのWebAPI機能でマイクロサービス化されます。アプリケーションからすぐに利用できる形でモデルをデプロイできることも、DSXならではの特徴です。
DSXに関心を持っていただけた方は、こちら(英語)から申し込みしていただければ、すぐに無料で全機能を1ヶ月間利用できます。これを機会に一度お試しされることをオススメします。
IBM Data Science Experience製品ページへ
(2) アイコン操作だけでデータ分析ができるSPSS Modeler
国内外で長年に渡り多くのデータサイエンティストが利用しているIBM SPSS Modeler。皆さんはSPSS ModelerがHadoopで動くことをご存知でしょうか?もちろんHDPでもSPSS Modelerを使ってビッグデータのデータ分析が可能です。SPSS Modeler上でアイコンをブロックのように繋いでいくだけで、HDP内に蓄えられたビッグデータにアクセスし、集計、データ加工、データモデリング可能をHDP上で行えます。Hadoopのスキルがない分析ユーザーについても、手軽にHDPを使ってみることができます。
これまでSPSS Modelerに触れてみたことがない方は、デスクトップ版のトライアルプログラムが用意されていますので試用してみてください。こちらのページから申し込みしていただければ、すぐに開始できます。
データ分析者達の教訓 #21- 異常検知には異常を識別する「データと対象への理解」が必要
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの宮園です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、デー ...続きを読む
【予約開始】「SPSS秋のユーザーイベント2024」が11月27日にオンサイト開催
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
本年6月800名を超える方々にオンライン参加いただいたSPSS春のユーザーイベントに続き、『秋のSPSSユーザーイベント』を11月27日に雅叙園東京ホテルにて現地開催する運びとなりました。 このイベントは ...続きを読む
データ分析者達の教訓 #20- 分析プロジェクトはスピードが命。鉄もデータも熱いうちに打て
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。山下研一です。IBM Data&AIでデータサイエンスTech Salesをしています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活 ...続きを読む