Business Challenge story

ビッグデータの分析サービスの実現にあたり既存のITインフラの性能が不足

「ビデオリサーチといえば、一般的にテレビの視聴率調査というイメージがあるかもしれません。しかし、テレビ以外にもラジオ、新聞、雑誌など、マスメディアに関する調査を幅広く行っています。また、現在大きなメディアとなったインターネットに対しても、単体の調査としては2000年よりビデオリサーチグループの株式会社ビデオリサーチインタラクティブの前身であるビデオリサーチネットコムで、いわゆるインターネット視聴率であるサイト接触調査(WebReport)やアンケート調査(WebPAC2) などをパネルによって実施しデータサービスを行っています。しかし新聞や雑誌がウェブサイトや電子版などでオンライン展開されはじめてきたことから、ビデオリサーチとしても、クロスメディア・クロスプラットフォームを見据えた調査を行う必要がありました」と語るのは、ソリューション推進局 インタラクティブ事業戦略室 課長補佐の田村玄氏です。

そこでビデオリサーチでは、2012年よりウェブサイトにアクセスした利用者のログデータにプロフィールデータを付与する新サービスを展開しています。これまでのウェブサイトアクセス解析では、何人に閲覧されたのか(ユニークユーザー:UU)、何ページ閲覧されたのか(ページビュー:PV)といった分析はできましたが、アクセスしたウェブサイトの利用者が、男性なのか女性なのか、年齢層はどれくらいなのかといったプロフィールは会員情報を得ているユーザーしか把握することができませんでしたし、もっと深いプロフィール情報はもちろん分かりませんでした。

新サービスでは、これまでビデオリサーチが培った経験やノウハウを活かし、あらかじめ許諾を得たパネルから調査した、性・年齢に留まらない多様なアンケートによるデータと、ウェブサイトのアクセスログをマッチングした全数データによる分析を実施しています。そうすることで、分析データの利用契約者は、ウェブサイトの改善やマーケティング施策の立案などに有用な基礎データを得ることができます。

新サービスを実現するにあたり、これまでに社内システムに蓄積された既存の調査データはもちろん、たとえば1カ月あたり数億PVのアクセスがあるウェブサイトのログを、少なくとも数年分蓄積し、集計するためのデータウェアハウス(DWH)が必要でした。また既存の調査データとアクセスログデータをマッチングし、分析することにより、ウェブサイト利用者のプロフィールを類推するためのツールも必要でした。

ソリューション推進局 インタラクティブ事業戦略室の森陽祐氏は、「テレビの視聴率調査データや新聞、雑誌などの紙媒体の調査データにおいては、データ量がそれほど多くならないので既存のITインフラでも十分に運用が可能でした。しかし、新聞や雑誌の電子版のアクセスログ、1カ月あたり数億PVのアクセスがあるウェブサイトのログを、集計し、その結果をASPサービスとして利用者に提供するには、既存のITインフラやデータベース、分析ツールでは、性能が不足して実現することができませんでした」と話しています。

Transformation

導入までのスピード感と操作性の良さでアプライアンス製品であるIBM PureData System for Analyticsを 採用

新サービスは、2011年より検討を開始し、7月に伊藤忠テクノソリューションズ株式会社(以下、CTC)からIBM PureData System for Analyticsの提案を受け、導入を決定。9月よりシステムの搬入・設置を実施して、11月よりシステム構築・テストを開始しました。その後、2012年1月に新しい分析システムをカットオーバーし、5月より業務支援を並行しながら、8月からは本格的な運用を開始しています。

今回、構築した分析システムは、まずウェブビーコン方式で得られるアクセスログをストレージに取得し、ELTツールを経由して、IBM PureData System for Analyticsにデータを書き込みます。このデータと、これまでに実施した既存の調査データをマッチングさせ、IBM SPSS StatisticsやIBM SPSS Modelerなどのツールを使って統計解析やデータ分析などを行っています。集計結果は必要に応じてレポーティングすることも可能です。

これまでビデオリサーチは、主にメディアを中心としたデータをもとにさまざまな分析を行ってきており、現在そのノウハウと技術を蓄積しています。1999年にIBM SPSS StatisticsとIBM SPSS Modelerを導入し、膨大かつ複雑なデータ構造を持つ視聴率データやACR(Audience and Consumer Report)データを対象に、掘り下げた分析を行っていました。

ACRというのは、ひとりの生活者に対して、媒体接触状況と消費・購買状況、さまざまな意識までを同時に調査した、主要7地区における約1万サンプルという日本最大規模のシンジケートデータです。生活者を「Audience」と「Consumer」の2側面でとらえることで、消費者動向の把握、ターゲットのプロフィール把握、それらデータをもとにした媒体計画の立案など、マーケティング・プランニングの基礎データとして活用できます。

こうした複雑なデータを多面的に分析したい場合、定型的な分析プログラムで処理することは困難です。そこで、IBM SPSS製品が標準機能として搭載している因子分析やクラスター分析など、多様な多変量解析手法を駆使して、自由度の高い分析業務に取り組んでいます。

IBM SPSS製品のヘビー・ユーザーである田村氏の説明によれば、専用の集計・分析ソフトでは対応できない分析リクエストの中には、同一、もしくは類似した内容のリクエストが繰り返し行われることがあるため、一定の分析手順を自動で行えるプログラムを、シンタックスやIBM SPSS Modelerのストリームで作成しています。この点について、田村氏は次のように語ります。

「IBM SPSS製品は、ほとんどの分析がメニューを選択することによって簡単に行えるため、分析初心者でも高度な分析に取り組むことができます。こうした敷居の低さに加えて、シンタックス、ストリームを最大限に活用すれば、分析手順の自動化を通じて、分析業務を効率化することも可能です。IBM SPSS製品の持つ自由度の高さ、柔軟性は、私たちリサーチのプロにとっても大きなメリットとなっています」。

リサーチのプロフェッショナルを多数擁する同社ですが、田村氏は、後述する「ビッグデータ分析」のような、複雑で不定形なデータ分析に対するスキルへの要求が高まることを見越し、IBM SPSS製品を使いこなせるユーザーをさらに増やし、高度化する分析に柔軟に対応できる体制の確立を目指していました。

IBM PureData System for AnalyticsとIBM SPSSとの連携稼働を採用した理由を森氏は、「IBM PureData System for Analyticsを選んだ最大の理由は、アプライアンス製品であるということです。なかでも導入までのスピード感と操作性の良さは高く評価できました。社内でITインフラを整えていく人的リソースを多く確保するのが難しい状況でしたので、導入に至るまでのハードルの低さや自分たちで動かすことができる使いやすさが、選択する上で重要でした。そこでCTCに相談したところ、提案されたのがIBM PureData System for Analyticsでした」と話しています。

Benefits

ビッグデータ分析のためのインフラを実現。億単位のレコード件数を持つアクセスログを分析業務に活用

ビデオリサーチでは、ASPなど定期的に固定フォーマットで提供する分析サービスに関しては、すでに恒常的に運用しているITインフラもありますが、スポット的に発生するアドホックな分析や調査に関しては、Excelをはじめ商用およびオープンソースのツールに頼らざるをえない場面も多く、十分なインフラを整えているとは言えない状況でした。分析業務にあたる社員は退社前に集計処理を実行して、翌日の朝、出社したときに結果を確認するといった繰り返しによりレポートを作成することもありました。

森氏は、「アドホック分析は多様な集計要件があり、それらに対応できる柔軟性の高いインフラを常設しておくのは困難でした。それがIBM PureData System for Analyticsを導入したことで、ビッグデータのスポット的な分析に関しても、容易なデータインポートから高速にデータを処理できることで、迅速なレスポンスを期待できます。これにより、効率的かつ効果的なデータ分析が可能になりました」と話します。

さらに田村氏は、「これまでは数千件から数万件の調査データは分析できましたが、ビッグデータをハンドリングするためのインフラがありませんでした。IBM PureData System for Analyticsを導入したことで、何億PVというウェブサイトのログデータを、分析業務に容易に活用できるようになりました。また、システム管理者からは、IBM PureData System for Analyticsは、ビッグデータのローディングが非常に速いという話も聞いています」と語ります。

森氏も、「これまで使っていたITインフラやツール類では、そもそもビッグデータを開くことさえ困難でした。まだ第一段階とはいえ、IBM PureData System for AnalyticsとIBM SPSSを連携導入してビッグデータを分析できるようになったのは、今後の ビジネス展開にとっても大きな一歩と言えると思います」と話しています。

 

将来の展望

オンライン上のログデータとオフラインの調査データを組み合わせた強みを次の戦略や既存の分析サービス強化に活かす

今後の展望について森氏は、次のように語ります。「まだ研究中ですが、これまで長年蓄積してきた新聞や雑誌などの紙媒体の閲読率や認知度といったオフラインの調査データと、電子版のアクセスログなどのオンライン上のログデータを組み合わせた分析データを提供していきたいと思っています。たとえば、紙の新聞と同じ新聞の電子版をトータルに見て、どれくらいのリーチがあり、デバイスを跨いでどれくらい認知されているかといった分析に利用していきたいと思っています」。

「オンライン上のログデータでは大量のデータを取得できますが、それはどういうプロフィールを持った訪問者なのか分からない“顔の見えない”データです。これまで顔の見えなかったオンライン上のログデータを、顔の見える状態にしてサービスとして提供することで、新たな価値創造が期待できます。オンライン分析だけであれば、ほかにもできる会社はありますが、前述のACRデータをはじめとする多様なオフラインの調査データと組み合わせたデータ分析ができるのはビデオリサーチの強みであり、ここを強化していきたいと思っています」(森氏)。 また田村氏は、「インターネットの世界におけるメジャーコンテンツの分析に関しては、現状のパネル調査のデータ量でも十分可能ですが、マイナーコンテンツなどロングテール部分の分析に関しては、十分なデータ量とは言い切れません。今回、IBM PureData System for AnalyticsとIBM SPSSを連携導入したことで、既存のパネル数を増やし、データ量を拡大することが可能になります。

このように、今回構築したインフラにより、既存の分析サービスを強化、拡張できるのではないかと期待しています」と語っています。

 

お客様情報

メディアデータ/マーケティングデータの提供、広告効果測定、市場調査、ネットリサーチなど、マーケティングの課題解決を支援する事業をトータルに展開しています。

 

テクノロジープラットフォーム

ソフトウェア

Solution Category

  • IBM Hybrid Cloud