跳转到主要内容

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

当您初次登录到 developerWorks 时,将会为您创建一份概要信息。您在 developerWorks 概要信息中选择公开的信息将公开显示给其他人,但您可以随时修改这些信息的显示状态。您的姓名(除非选择隐藏)和昵称将和您在 developerWorks 发布的内容一同显示。

所有提交的信息确保安全。

  • 关闭 [x]

当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

所有提交的信息确保安全。

  • 关闭 [x]

IBM SPSS Modeler 帮助电信运营商预测客户流失案例浅析

吴邻燕, 软件工程师, IBM
吴邻燕 , 毕业于西北工业大学,之前从事银行软件测试工作,2010 年加入 IBM 以来一直从事 IBM SPSS Modeler 的软件测试工作。
徐颖, 软件工程师, IBM
徐颖,毕业于西安电子科技大学, 从事 IBM SPSS Modeler 核心 Feature 的软件测试工作。
王鹏超, 软件工程师, IBM
王鹏超,2002 年至今,在 IBM 主要从事 ECM, WebSphere, Lotus 等产品的测试开发及 Support,熟悉 IBM Websphere、Tivoli、DB2 等中间件及 IBM z/OS、 I Series 等操作系统及相关开发工具。

简介: 本文主要通过运用 IBM SPSS Modeler 中 C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。

发布日期: 2011 年 12 月 08 日
级别: 中级
访问情况 : 821 次浏览
评论: 


引言

目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。

数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。

本文主要通过运用 IBM SPS Modeler 中 C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。

数据准备

读入数据源

读入电信客户数据,数据有多达 42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别, 还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。将流失字段 churn 角色设置为目标。将所有其他字段的角色设置为输入。


图 1.数据源
图 1.数据源

由于数据包括多达 42 个字段,我们将先进行数据准备阶段。数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。据估计,实际的数据准备工作通常占 50-70% 的工程时间和工作量。在前期的业务理解和数据理解阶段投入足够的精力可以将对这一阶段的投入降至最低,但您仍需花费大量的精力在建模前做数据准备工作。

利用“特征选择”节点删除无用字段

首先通过使用“特征选择”节点,删去不能为预测变量 / 目标之间的关系添加任何有用信息的预测变量或数据。将数据源节点链接到“特征选择”节点,双击打开“特征选择”节点。


图 2.设置选择
图 2.设置选择

可以看到用户可以选择定义缺失值最大百分比,单个类别中记录的最大百分比,作为记录百分比的最大类别数,最小变异系数,最小标准差,来进行数据选择。这里保持默认设置,运行流。打开生成的模型块如下 ;


图 3.模型块
图 3.模型块

,3 个字段分别由于单个类别过大,缺失值过多以及变异系数低于阈值而不会被选定作为输入字段。让我们进一步解释一下。单个类别中的记录最大百分比筛选相对于记录总数而言,同个类别中具有过多记录的字段。例如,如果数据库中 95% 的客户开同一类型的车,则此信息无助于区分客户。任何超过指定最大值的字段都将被筛选掉。我们通过图形看一下 retire 字段。选择“分布”节点连接到读入数据的数据源节点,选择 retire 字段,运行流。可以看到 retire 字段中,确实有 95.3% 的人都是未退休的人。此信息无助于区分客户。


图 4.退休情况图
图 4.退休情况图

字段 logwire 由于缺失值的最大百分比超过“特征选择”节点中定义的 70% 而被筛选出。显而易见,具有过多缺失值的字段,几乎不提供任何预测信息。我们先直观的用“表”节点来观察一下这个字段,可以看到字段中确实有许多值是缺失的 $null$ 值。


图 5.logwire
图 5.logwire

那么到底缺失比率到底是多少呢,我们用“数据审核”节点来看一下具体的统计分析值。将“数据审核”节点连接到读入数据的数据源节点,选择 logwire 字段,运行流。可以看到 logwire 的有效数据是 296 条,相对于总的 1000 条数据,它的缺失比率为 70.4%, 高于“特征节点”定义的 70%。


图 6.数据审核情况
图 6.数据审核情况

而 logequi 字段由于变异系数低于“特征选择”节点中定义的最小变异系数 0.1 而被筛选掉。此度量值是输入字段标准偏差与输入字段均值之间的比值。如果此值接近 0,则变量值的变异性就不高,则信息无助于区分客户。

利用“特征选择”节点选择重要字段

除了这三个字段,我们还将滤除非重要性的字段。重要性是在建模之前在“特征选择”节点中定义的,我们建模时使用的是它的默认值,这里重新打开“特征选择”节点,到“选项”选项卡。


图 7.选择重要字段
图 7.选择重要字段

可以看到重要性是基于 Pearson 分布的,当值小于 0.9,模型将认为该字段是不中要的。重新回到之前生成的模型块,可以看到从字段 marital 开始,重要性是非重要的。我们将滤去这些字段,在模型块菜单中选择生成过滤器,选择“所有排列的字段”/“重要“并单击确定。


图 8.选择生成过滤
图 8.选择生成过滤

将生成的过滤节点连接到数据源节点,打开过滤节点,可以看到许多字段被过滤掉了。实际上通过以上的数据准备阶段,源数据的 42 个字段已被降低到 28 个字段,这些字段将用来建立模型,分析客户流失。


图 9.删除过滤后的源数据
图 9.删除过滤后的源数据

利用“过滤”节点处理含有大量缺失数据的字段

在最终建模预测客户流失之前,我们还需要对这 28 个数据进行分析,识别所有含有大量缺失数据的字段。这里我们再次运用“数据审核节”节点。将数据审核节点附加到生成的“过滤”节点后,运行流。


图 10.数据审核
图 10.数据审核

可以看到唯一需要修改的字段是 logtoll,其有效值比例小于 50%。通常我们对于这种有效值比较低的字段的做法是用它的均值代替它的空值与无效值,这里我们看到,它的均值是 3.240。接下来,我们用“填充”节点来实现对空值与无效值的替换。如下图所示,对于字段 logtoll 的空值和无效值,将用均值 3.240 替代。


图 11.替换无效值
图 11.替换无效值

利用 C5.0 创建并分析模型

创建模型

这里我们完成了数据准备阶段,接下来我们就可以真正建立模型了。我们选择 C5.0 节点创建模型


图 12.创建模型
图 12.创建模型

分析模型

利用 C5.0 所具有的函数定义将属性进行排列,具有最高信息增益的属性选作给集合 S 的测试属性。创建一个根节点,并以该属性标记,对属性的每个值创建分支,然后递归建树,可构造一个树状结果图。其中每一个节点都是属性中具有最大增益的属性,生成的树状结果图如下可见:


图 13.生成树状结果图
图 13.生成树状结果图

从这张图上,我们可以清楚的看到,对于从根到树叶的每条路径创建一个规则,以现有形式条件分类规则,组成规则集。沿着给定路径上的每个属性,叶子节点包含的类预测,形成后的部分,将规则存入规则库。从图 1 中可以看出,本地通话费小于等于 4.976 分钟 / 月为分类条件,可以将现有客户分成两个集合;然后又根据性别,将其中一个集合再次划分为两个字集合;还可以通过年龄、收入、国际长话费时间等再细分,以此类推。

分析数据挖掘结果探寻客户管理策略

从图 13 树状分析结论来对某电信公司主动流失客户的具体情况进行分析,可以看出在本地通话费小于等于 4.976 分钟 / 月的人群中客户最容易流失,这是因为这一部分人大多有相对稳定的工作、收入相对较高,基本上每人都有自己的移动通信工具,孩子较大且大多在外读书或者已经上班,家中很少有人在,因使用频率低而销户。本文认为,为挽留这类客户,就应该针对他们工作相对稳定并已经定性、不需要为打拼天下花大量的时间和精力、需要决策而必须了解和掌握大量信息、休闲娱乐的时间相对较多而且固定等特点,采取“固话 + 宽带”绑定的方法一定会受到他们的欢迎。

年轻 e 族(年龄 , 小于等于 39)收入少、赶新潮、思维活跃、攀比心理较强,因而用以受到新的竞争因素影响而成为易流失的客户,针对这部分人的情况,可以采用各种优惠办法,或赠送时尚彩铃,或发展为各种等级的 VIP 会员等办法,来增加对年轻人的吸引力。

年收入低于 38950 元的低收入群体也是易流失客户,电信公司可以针对这类低收入客户,采取零月租,接听免费,赠送话费等实用措施,留住低收入客户。相对应的就有年收入高于 51669 元的客户,可能这类客户很多竞争公司会来拉拢,这类客户会因为需要联系业务或是别的要求,经常需要打电话,所以电信可以投其所好,对这类稍高收入群开办套餐,比如 200 元包月任意打、且免除漫游费等优惠活动。(等等可根据其他细分情况提出有针对性的挽留优惠活动)

另外,对易流失客户群 , 采取提高服务质量(如进行客户满意度调查、客户投诉分析、客户咨询和查询焦点分析等)、适当的优惠赠送活动等办法来提高竞争力,加强企业与客户之前的感情沟通,从而留住客户。

关于模型准确性评估


图 14.准确率评估结果图
图 14.准确率评估结果图

图 14 可以看出,建模和评估模型得出来的结果几乎差不多,而且准确率可以达到 90% 以上。实验结果表明,使用该算法进行客户流失的分析和预测是可行的和有效的,它可以帮助管理者更好地了解客户的流失受到哪些因素的影响,以便在今后的市场营销中有针对性的对那些客户流失率高的客户做好服务工作,防止客户的流失引发的经营危机,这对于提高公司竞争力、改善客户关系具有重要意义。

结论

客户资源是电信公司的生命,保留并巩固客户资源对电信公司来说意义重大。C5.0 节点是数据挖掘中一个常用的节点,其算法理论清晰、方法简单、适用于处理大规模的数据问题,因此是一种知识获取的有用工具。将 C5.0 算法应用于客户流失分析,能够帮助电信公司深入了解客户流失的原因,改进客户服务,对提高客户的留存率,具有十分重要的应用价值。

参考文献

  • 参考数据挖掘概念与技术 ( 原书第 2 版 ) Jiawei Han、Micheline Kamber、范明、 孟小峰 机械工业出版社 (2007-03 出版 )
  • 参考深入浅出数据分析 米尔顿 (Michael Milton)、 李芳 电子工业出版社 (2010-09 出版 )
  • ID3 算法在电信客户流失中的应用
  • [ 美 ]Micheal J-A.Berry Gordon 和 S.Linoff. 数据挖掘 --- 客户关系管理科学与艺术 北京:中国财政经济出版社。

参考资料

学习

获得产品和技术

  • 下载 IBM 软件试用版,体验强大的 DB2,Lotus,Rational,Tivoli和 WebSphere软件。

讨论

作者简介

吴邻燕 , 毕业于西北工业大学,之前从事银行软件测试工作,2010 年加入 IBM 以来一直从事 IBM SPSS Modeler 的软件测试工作。

徐颖,毕业于西安电子科技大学, 从事 IBM SPSS Modeler 核心 Feature 的软件测试工作。

王鹏超,2002 年至今,在 IBM 主要从事 ECM, WebSphere, Lotus 等产品的测试开发及 Support,熟悉 IBM Websphere、Tivoli、DB2 等中间件及 IBM z/OS、 I Series 等操作系统及相关开发工具。

关于报告滥用的帮助

报告滥用

谢谢! 此内容已经标识给管理员注意。


关于报告滥用的帮助

报告滥用

报告滥用提交失败。 请稍后重试。


developerWorks:登录


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 使用条款

 


当您初次登录到 developerWorks 时,将会为您创建一份概要信息。您在 developerWorks 概要信息中选择公开的信息将公开显示给其他人,但您可以随时修改这些信息的显示状态。您的姓名(除非选择隐藏)和昵称将和您在 developerWorks 发布的内容一同显示。

请选择您的昵称:

当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

(长度在 3 至 31 个字符之间)


单击提交则表示您同意developerWorks 的条款和条件。 使用条款.

 


为本文评分

评论

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management
ArticleID=779888
ArticleTitle=IBM SPSS Modeler 帮助电信运营商预测客户流失案例浅析
publish-date=12082011

标签

Help
使用 搜索 文本框在 My developerWorks 中查找包含该标签的所有内容。

使用 滑动条 调节标签的数量。

热门标签 显示了特定专区最受欢迎的标签(例如 Java technology,Linux,WebSphere)。

我的标签 显示了特定专区您标记的标签(例如 Java technology,Linux,WebSphere)。

使用搜索文本框在 My developerWorks 中查找包含该标签的所有内容。热门标签 显示了特定专区最受欢迎的标签(例如 Java technology,Linux,WebSphere)。我的标签 显示了特定专区您标记的标签(例如 Java technology,Linux,WebSphere)。