Business Challenge story

ビッグデータの活用により、情報の量と質の向上を目指す

100年以上にわたり、企業信用調査に基づく情報を顧客に提供してきた帝国データバンクでは、160万社の信用調査報告書ファイル、68万社・440万期のCOSMOS1、142万社のCOSMOS2、410万社(内法人数300万社)のTDB企業コードなどに基づく経営情報※を保有しています。しかし近年では、インターネット上に発信される情報が企業経営に少なからず影響を及ぼすようになってきたことから、こうした情報への対応が急務となっていました。(※データ保有数は2012年11月時点のものです)

産業調査部 産業分析課 SPECIAチーム MBA 統計士の北島聡氏は、「我々が詳細に把握しているのは、その会社がどのような会社で、どれだけ信用できるのかという観点で調査、収集された経営情報です。どのような商品があり、その商品が市場でどのように評価されているのかといったインターネット上の情報は保持していませんでした。しかしお客様からもインターネット上の情報を含む企業情報の提供が求められていました」と話します。 「近年、企業の状況を把握するために、インターネット上の“ビッグデータ”に注目が集まっています。今後、ビッグデータは、企業の状況を判断するための情報として非常に重要になると考えていました。しかし既存の技術だけでは、お客様の要望に応えることが難しいため、ビッグデータからお客様の要望に合致した企業情報を迅速に抽出するための新しい技術を導入することが必要でした」(北島氏)

またデータ量の側面では、160万社分の信用調査情報を保有しているので経営情報の提供という面では十分でしたが、今後さらに一社あたりのデータ量を増やすとともに、データの質を向上していくことも必要でした。北島氏は、「ビッグデータを活用することで、商品名を含む多くのキーワードを活用することができ、かつ分析の精度を向上することもできます。個々の情報が膨大に蓄積されると、これまで把握することが困難であった全体の中での“個”の特徴がわかります。世の中に存在していなかった“集合知”によるオンリーワンの企業情報の提供を目指しました」と話しています。

こうした背景、そして課題を解決するための第一歩として、帝国データバンクでは、既存の企業情報とインターネット上のビッグデータを統合し、マーケティング分野などで利用するためのリストアップサービス「特定業界企業データ(ATTACKデータ)」を追加開発することを決定。その技術基盤として、Hadoopによる分散処理機能を搭載したビッグデータ分析ソフトウェア「IBM InfoSphere BigInsights(BigInsights)」を採用しました。

Transformation

IBMのサポートと実績を評価して、BigInsightsを採用

ビッグデータの活用サービスの構築は、2011年11月よりプロジェクトがスタート。BigInsightsを導入したシステム構築を経て、2012年5月より社内で検証を実施。11月より、企業データのリストアップサービスを開始しています。今回、構築された企業データのリストアップサービスは、インターネット上の情報をクロールするためのサーバー群、BigInsights用を用いたデータ分析用のサーバー群、商品生産用のサーバー群で構成されています。

北島氏は、「特定業界企業データ(ATTACKデータ)では、“データセンター運営企業”、“介護サービス”、“健康食品”などのリストメニューを提供しています。これまでは現地現認の調査に基づく経営情報のレポートからキーワード抽出を行っていましたが、それらにインターネットからのクローリングによって得られる情報を加えることで、リストを作成する基となるデータ量が従来の4.75倍と圧倒的に増加しました。これにより、提供できるデータの件数も大幅に拡大しています。さらに弊社の既存のデータベースと組み合わせることで、売上高や従業員数、社長の年齢、指定銀行取引、建物の述べ床面積などインターネット情報だけでは検索ができなかった複合検索が可能になります。 インターネット上の情報には、企業に直接関係のない情報や単なる噂など、不確実な情報も多く存在しますが、機械学習の仕組みを活用することで、検索キーワードの意味に合った、より詳しい、より正確な企業情報を抽出することができました」と話します。

企業データのリストアップの実現について企総部 システム統括課の澤山健吾氏は、次のように語ります。

「これまで社内のデータを活用した業務系システムを中心に開発してきました。企業情報検索サービスは、社外の大量データを利用することからHadoopによる分散処理が有効です。しかし、Hadoopを利用した経験やノウハウが不足していたことからBigInsightsを採用することにしました」

澤山氏はまた、BigInsightsが採用された理由を「複数のベンダーの製品を検討しましたが、IBMの技術サポートを評価したのがBigInsightsを採用した最大の理由です。また、すでに国内外の多くの企業で採用されている実績も採用を決めた理由のひとつでした」と話します。

さらに今回のプロジェクトを成功に導いた背景について北島氏は、「お客様のニーズの変化にすばやく対応できるよう、開発は外注ではなく内製化にこだわりました。開発はユーザー部門とシステム部門のチーム連携が重要で、ほしいデータ構造をほしい人が得られるようアジャイル開発を行っています。まずは、できる人がRuby言語でプログラムを作り、その内容をチームで理解して、次からは誰でも対応できる体制を確立しました。経験豊富なスペシャリストが集まっているわけではないので、人材育成も含めた取り組みを推進しています」と話しています。

Benefits

BigInsightsによる分散処理で、数十億件のテキストデータを30分で処理

システム構築にあたり、当初はクロールされたインターネット上の情報を1台のサーバーで並列化することなく処理してみましたが数日かけても処理が終わらず、遅くて使い物になりませんでした。また数週間かかるという試算から、途中で止めた処理もありました。この同じサーバーにBigInsightsを導入したところ、処理速度を大幅に向上できました。

北島氏は、「初期段階で一台のサーバーにBigInsightsを導入し、Hadoopの疑似分散モードで実行したところ、同じ処理を数日で終了できました。Hadoopによる分散処理の有効性が確認できたことから、データ分析用のサーバー群にBigInsightsを導入し、ビッグデータを分散処理しています。現状では、数十億件のデータを30分で処理できるようになりました」と話します。

一方、システム構築面での効果を澤山氏は、次のように語ります。

「BigInsightsは、当初は慣れない面もありましたが、IBMのサポートもあり、すぐに利用できるようになりました。おかげで非常に短期間にシステムを構築できました」

また澤山氏は、「BigInsightsで提供されているシステム管理用のGUIツールも有効でした。通常、Hadoop上のHDFSのディレクトリ構成を確認するためには、コマンドを入力して表示しなければなりませんが、3階層くらいになるとコマンドを入力するだけでもたいへんです。BigInsightsでは、ファイルマネージャー形式のGUIツールにツリー構造でディレクトリが表示されるので非常に便利でした」と話します。

さらにIBMの提案内容について澤山氏は、「他社の提案は、サーバー数増による性能向上を図るものばかりでしたが、IBMの提案はサーバーの数よりもコア数などCPUの能力が重要であるという、Hadoopの特性も踏まえた実績に裏付けされたものでした。この提案には、技術力の違いを感じました」と話します。

北島氏はBigInsightsを導入した企業情報検索サービスを実現したビジネス的な効果について、「これまでに培ってきた信頼性の高い160万社の企業情報と、BigInsightsにより高速に処理したビッグデータの活用サービスを実現したことで、競合に比べて圧倒的な差別化が実現できました」と話しています。

 

将来の展望

今後もあらゆるデータの活用にどん欲に取り組む

今後の帝国データバンクにおける取り組みについて北島氏は、「我々の基盤となっている企業データのさらなる活用方法の開発に、どん欲に取り組んでいきたいと思っています。例えばソーシャルネットワークデータやお客様の販売データ、WEBアクセスログデータの解析などです。自社で保有するビッグデータを活用したいが、どこから手をつければいいか分からないという企業も多いと聞きます。その場合、例えば弊社の企業データを組み合わせていただくことで、簡易な集計から複合的な分析までをカバーすることができるのではないかと思います。今後のビッグデータ活用においてもBigInsightsに大きな期待を寄せています」と話しています。

 

お客様情報

企業信用調査、信用リスク管理サービス、データベースサービス、マーケティングサービス、電子商取引サポートサービス、出版などの事業を展開しています。

 

テクノロジープラットフォーム

ソフトウェア

Solution Category

  • Other
    • InfoSphere BigInsights Enterprise Edition