SPSS Statistics

テキストマイニングの実践とソフトウェア

記事をシェアする:

内田 治 氏

テキストマイニングとは、文章の形式で得られているデータ(文章データ、言語データ、テキストデータといった呼び方をする)から、有効な情報をコンピュータの力を使って抽出する方法のことです。この方法は決して新しい方法ではなく、10年ほど前から盛んに提唱されているものですが、普及は十分にしておりませんでした。この理由はテキストデータが入手しにくいということ、入手できてもソフトに入力するのが面倒であるということ、専用ソフトが高価である ことにあったと考えられます。

ところが、ネット調査の普及により、アンケート調査における自由回答文の収集が容易になったこと、以前に比べて安価で良質なソフトウェアが登場したことにより、再びテキストマイニングの効用に注目が集まり、質的研究の分野でかなり使われるようになってきました。

そこで、筆者のひとりである内田は、テキストマイニングと統計解析に着目した書籍を企画し、このたび、「SPSSによるテキストマイニング」という書籍を発刊することになりました。

テキストマイニングは、文章を単語に分割してカテゴリ化する部分と、カテゴリ化したデータを統計的に分析する部分に分けることができます。したがって、テキストマイニングを実施するには、文章を単語に分けるため自然言語解析を実行するソフトと、統計解析を実施するためのソフトが必要になります。

この書籍「SPSSによるテキストマイニング」では、文書を単語に分けるためのソフトとして、SPSS Text Analysis for Surveysを、統計解析のためのソフトとして、SPSS Statisticsを取り上げています。そして、テキストマイニングの基本的な考え方と、テキストマイニングのソフトであるSPSS Text Analysis for Surveysの利用方法を解説することが、この書籍の主たる目的で、次の3つのパートで構成しています。

第1部 テキスト分析
第2部 SPSS Text Analytics for Surveysの操作
第3部 統計解析

なお、この書籍で取り上げているSPSS Text Analytics for Surveysのバージョンは4、統計解析に使用したSPSS Statisticsのバージョンは20です。

SPSS関連書籍のご案内

thumb_book20120601_70x70
SPSSによるテキストマイニング入門
[著者] 内田 治 川嶋 敦子 磯崎 幸子 共著  [出版社] オーム社  [初版] 2012年6月

More SPSS Statistics stories

データ分析者達の教訓 #16- ステークホルダーの高い期待を使命感と創意工夫で乗り越えろ

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む


データ分析者達の教訓 #15- データ分析は手段と割り切り情熱をもって目標に進め

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さんこんにちはIBMの河田です。SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を進め ...続きを読む


データ分析者達の教訓 #14- データから導かれる「あたりまえ」を丁寧に見つめ直す

Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...

  皆さん、はじめまして。 昨年末にIBM にJoinし、Data&AIでデータサイエンスTech Salesをしている宮園と申します。   このリレー連載ブログはSPSS Modelerの実 ...続きを読む