SPSS Modeler ヒモトク

Modelerデータ加工Tips#04-行列入替で適合率PrecisionやF1スコア・MCCを求める

2021年03月30日

カテゴリー Data Science and AI | SPSS Modeler ヒモトク | アナリティクス | データサイエンス

記事をシェアする:

みなさんこんにちは。　Western Digital®の小杉と申します。

弊社は米国に本社を持つHDD, SSD, Flash Memoryを主たる製品とする開発・製造・販売の会社です。弊社の出荷台数から考えますと、皆様が所有されておられるスマートフォン、タブレット、パソコン、HDDレコーダー等のデジタル機器のうち複数台に弊社製品が搭載されていると考える事が出来ます。したがいまして間接的ではありますが、ほとんどの皆様が弊社製品のユーザー様でおられます。この場をお借りしまして、日頃よりの皆様のご愛顧に感謝を申し上げます。

現在私はグローバルIT部門内に2018年に設立されたDigital Analytics Officeという部門に所属し、社内のHDD・Flash Memoryの開発/エンジニアリング部門を対象にデータアナリティクスの活用支援を行っています。SPSS Modelerを使い始めたのはHDDの品質保証部門に所属していた2008年頃にさかのぼります。当時手探りで始めた機械学習による製品の不具合原因判別予測ではアルゴリズムのチューニングに苦慮しましたが、ほどなくデータ加工が最も重要だと気付くことになりました。生産拠点であるタイにある工場では、Modelerを展開・教育を実施した直後からデータ加工への活用が一気に広まった事は今でも記憶に残っています。その後一年間は現地チームと週一回の電話会議によってModelerの使い方、モデルの性能評価・解釈・理解のスキルアップを図り、解析技術の定着化を図りました。この流れは現在まで続き、Modelerを活用した不具合発生原因解析・低減業務はすっかり日常業務として定着しています。

Modelerは判別予測モデルの性能を評価するために、評価グラフでROC曲線が書けますし、精度分析ノードで精度（Accuracy）やAUCが標準で出力可能です。また推しノード#23「自動分類」では精度分析ノードを使って適合率（Precision）や再現率（Recall）を表示させる方法が紹介されています。ですが我々は当時SPSSに依頼して実施頂いた導入教育の中で、性能指数の作り方を教えて頂きました。このTips#04ではModelerには標準で備わっていないモデル性能評価指標の作り方を紹介します。

混同行列Confusion Matrixと性能指標

私どもはよく製品の検査のPASS（合格）/FAIL（不合格）の予測に用いるのですが、今回は、故障予測を例にします。例えばIoTセンサー情報から、ある設備が既に故障しているかどうかの予測モデルを作ります。実際に全ての時間帯で故障の有無を検査すると予測と結果の４パターンに分類され、Positive（陽性）/Negative（陰性）とTure（真）/False（偽）の頭文字などで表現します。

T P（真陽性）＝予測通り故障

F P（偽陽性）＝故障と思ったが故障していない

T N（真陰性）＝予測通り故障していない

F N（偽陰性）＝故障していないと思ったら故障だった

「P C R検査で選手の新型コロナウィルス感染を疑ったが、精密検査したら偽陽性（F P）だった」とニュースで耳にするようになり、この分類が身近なものになってきました。