最优细分方法和应用

集群与分类树

本文讨论了目标市场营销、产品开发以及剖析解决方案开发过程中特定于市场营销的集群、分类和细分技术。概述了流行的细分方法和算法,并讨论了其优势和局限性。本文还包括了一个业务用例以说明算法选择过程。

Kimberly Chulis, CEO 兼联合创始人, Core Analytics, LLC

Kimberly Chulis 的照片Kimberly Chulis 是 Core Analytics, LLC 公司的原始创办人之一。她拥有超过 18 年的专业高级分析经验,曾经在多个公司和行业的项目上展示了自己的分析专业知识,这些公司包括 WellPoint、HCSC、UHG、Great West、Accenture、Ogilvy、Microsoft、Sprint/Nextel、Commonwealth Edison、TXU、Eloyalty、SPSS、Allstate、Cendant,以及金融、电信、医疗、能源、非营利、零售以及教育领域的其他公司。Kimberly 曾经在攻读博士期间在普渡大学的 Health and Human Services Consumer Behavior 项目上进行过研究,并获得了芝加哥伊利诺伊大学经济学(侧重于健康经济学和计量经济学)硕士学位。



2013 年 3 月 12 日

术语细分 已变得无处不在,而且在不同的上下文环境中具有许多不同的含义,这常常让人容易混淆。对于企业来说这种情况并不少见,常常有几个细分功能同时出现在不同的部门。通常,大多数专家一致认为细分 作为一个包括万象的术语,是指将一个整体划分为类似单元的子集的一般划分。然而,除此之外,该主题还可能是一个饱受非议的主题。

假设在一个组织中,以下细分工作在给定时间内同时进行:

  • 研究和开发 (R&D) 部门开发一个客户细分,以便更好地了解消费者偏好和购买行为,从而推动量身定制的产品改进。R&D 也可能开发一个产品细分,以了解通常会一起购买的产品的相似性和类型。
  • 财务部门识别客户和前景细分以帮助进行收入预测。这种情况下的数据可能是盈利能力、收购成本、生命周期价值、人口统计、保留和广告成本等。
  • 市场研究细分形成了服务和质量感知的基础,从而推动品牌战略和广告投入。传统上,市场研究人员通过调查仪器和客户反馈数据执行细分。
  • 市场营销部门还有另一种细分,以了解谁响应各种营销渠道活动来细化目标市场选择以及改进市场反馈。市场分析人员通常利用原始客户购买行为和人口统计数据作为细分的基础。

这类场景相当普遍,企业缺乏一个通用的细分战略,全然不同的(通常是自相矛盾的)细分会跨部门进行开发而且使用方式截然不同。这种做法在很多使用细分的行业中普遍存在。为了提供关于各个行业如何处理细分的一个有限快照,考虑以下应用:保险公司使用细分确定风险分摊并设定定价标准和保费等级。电力行业使用一种自下而向上的方法来进行负荷预测、执行阶段预测以便聚合总体需求。汽车行业使用细分了解目标市场在设计和性能上的偏好。银行细分信用卡市场前景以实现直邮服务。生物学家将细分 称为截然不同的事物,根据身体结构和成长区域对动物进行分类。制药企业部署细分以最大化产品创新生命周期。图像处理领域(包括面部识别)是最复杂的领域之一,依赖于参数、区域增长以及边缘检测算法的复杂细分应用。无论是哪个行业(可能所有企业),只要尝试一个更为统一和匹配的企业细分策略,都会从中受益。

市场营销细分

上面列出的区别详细描述了细分项目的各种方法和目标。市场研究人员和市场营销分析专业人员通常以完全不同的目标、输入数据和方法处理该流程。我们来进一步探讨市场细分的标准方法。

任何细分工作的第一步都是了解研究的目标和动机。谁要求细分?细分将用来做什么?为什么需要细分?消费者的什么信息是必需的却还未获取?谁将使用输出?什么数据将用于支持细分?细分将如何操作和部署?如何衡量项目的成功?所有这些问题的答案都有助于确定最合适的技术、数据和算法来解决问题。在下一章节中,我们将研究一个特定用例,概述两种可行的方法,并讨论客户细分和预测建模之间的相似性和区别(参阅 参考资料 获取更多信息的链接。)

数据输入和标准细分方法

数据是任何细分工作的关键输入。通常,只要数据源可与个人或家庭 ID 准确关联,则数据越多越好。可用数据列表近乎无限,但是其中有几个关键数据类别:

  • 调查数据 可通过围绕产品和价格优惠、渠道销售、客户体验满意度以及改进建议的一般人群中的客户或消费者进行收集。
  • 事务数据 通常存储在关系型数据库中,在零售环境中包括购买、退货、折扣、付款方法、购买日期和时间。在金融环境中,这些信息将变成存款、取款;核对、储蓄和抵押贷款类产品;以及每个产品的细节。在能源环境中,这些信息包括使用、储运损耗、补贴、储量、装置以及智能仪表等。
  • 行为数据 包括 Web 浏览行为、商店导航、眼睛跟踪、语音识别、搜索、移动使用和设备信息、定位、频率以及进口和出口量与品牌的交互。社交媒体交互,比如 “喜欢”、转发以及关注也属于这个丰富的数据类型。
  • 人口数据 可直接从客户处收集,或者从人口数据供应商处购买,供应商可提供 300 到 900 多条关于个人、家庭、邮政编码的信息。这些第三方附加数据集中,其中有许多来自美国人口普查响应数据。
  • 其他数据类别包括呼叫中心、聊天、信息寻求、价格比较、评论、参与外围程序和社区,以及产品信息。

初步业务目标细化和数据发现完成后,就可以开始考虑可行细分方法了。您可以从各种传统方法中选择,每个都有其优势和局限性。例如,许多集群选项会产生同样大小的集群;尽管从部署角度来看这是可行的,但是强制实现同样大小的集群也可能减弱集群中相似度度量的优势。

决定最佳细分方法时有 3 个基础选项,图 1 显示了 3 个通用方法:非定量、相互依赖和相关。

图 1. 3 个基本细分选择
该图显示了 3 个基本细分选择

第一个选项是定性(或非定量)方法,涉及对比通过与业务涉众面谈和关注群体得到的维度信息来收集零散信息。这些维度信息反映了有关消费者行为的经验数据,并用于为目标处理策略指定主观细分。尽管在某一方面很有用,但这些非定量方法往往不如其他两种数据驱动细分(相互依赖和相关)那么健壮。

相互依赖 是指根据相似特征对消费者进行分组的多元细分技术的一个子集。集群分析是一个流行的相互依赖细分,其中同时考虑了所有数据集输入,且没有分离因变量和自变量。完整的集群流程将反复映射并绘制细分图以便可视化这些关系和集群空间变化,直至最终确定最佳匹配为止。

相关 是指模式分析方法,比如 Kohonen 网络、Rule Induction、卡方自动交互效应检测 (CHAID) 、C5.0、Iterative Dichotomiser 3 (ID3) 以及分类和回归树 (CARTs),而且通常会选用这些方法来识别关键市场细分。这些算法以及机器学习方法(神经网络)中的大多数都产生树形输出,树形输出在交付细分的可视化图形表示方面是非常有用的,可帮助非技术性涉众进行验证并进行解释。这些方法中的一个关键区别是模型需要一个因变量 (dependent variable),而在相互依赖模型中没有指定因变量。因变量通常是一个匹配细分目标的 0-1 标志类型的变量(即,反复进行以识别最有可能流失的客户段,有可能超过预期开销阈值的高价值客户,或有可能拖欠信用卡付款或贷款的高危客户群)。除了生成的树形格式群组外,这些相关模型在其输出度量标准中还生成相关的概率和倾向度量。由于这个原因,关于使用相关方法的细分语义在许多行业存在争议。

该方法的支持者强调相关细分的主要输出是可进行进一步剖析的相似客户群组,并定制了处理策略来减少流失、鼓励增加消费行为,或在发生违约之前引入风险干预策略。该方法的批评者则认为结果模型实际上是一个预测模型而不是细分模型,这是因为产生了概率预测输出。区别可能在于模型的使用。细分 根据多维数据将客户群分为不同的组,并用于建议一个可行路线图来在细分级别上设计相关的市场营销、产品以及客户服务战略,从而推动预期业务成果的实现。预测建模 是在个人层面上预测一个特定客户行为,如果它是一个逻辑定义,那么输出使用就应该确定细分与预测模型设计。

在着手开始细分工作之前的最后一个准备步骤是选择最适合该作业的软件。许多开源软件和商业供应商都提供全套分类和集群算法。其中一些(比如免费软件 Rapid Miner)还提供决策树、监督向量机 (SVM) 以及两种类型的神经网络。其他的(比如 IBM)提供了一些选项,包括 IBM® SPSS® Advanced Statistics(参见 参考资料),其中包括 Kohonen、Two-step、K-Means 以及 Decision Tree Module,最后一项提供了 4 个树增长算法:CHAID、Exhaustive CHAI、CART 和 QUEST(一个无偏二进制树算法)。IBM Unica 拥有 Affinium Model,该模型提供交叉销售模块,其中包括 CHAID、CART 和神经网络。IBM Intelligent Miner® 数据挖掘套件提供了一个范围广泛的算法列表,能够进行基准测试以及比较多个算法来促进最终的最佳算法选择。该列表提供关于支持细分算法的诸多统计程序包的详细信息。

集群类型和分类方法

层级和非层级(不相交)集群都因其分析数值变量的能力而受到限制;除非包括一个距离矩阵,同时支持字符和数字输入。层级集群没有重叠,但一个集群可以完全包含另一个集群的子集。不相交集群也没有重叠,因为客户只能属于一个集群。相反,重叠集群是无约束的版本,可以进行调整来支持各种程度的重叠。模糊集群可分为以上所述的 3 类,并根据分配到每个集群的成员的概率进行区分。K 均值算法可运行多次来生成特定数量的不相交的平集群。一种推测性的方法是通过称作 Normal mixtures 的迭代分类使用概率估计来分配组包含概率。单链接 是一种层级集群方法,在每一步以最小的双向距离合并两个集群;全链接 合并两个集群,这里合并代表最小直径。关于该主题的一个集群方法是 Average Link(平均法链接)方法,该方法在 1981 年 Milligan 的 Sentinel 出版物中表现良好,并结合了单链接和全链接的特征(参阅 参考资料 获取更多信息的链接)。Ward 的极小方差 (Minimum Variance) 法表现也不错。还提供了其他方法,比如因素分析,该方法通常用于集群第一阶段以减少变量;还有潜在类别算法,该方法代表一个结构方程建模方法,使用概率建模以最大化总体适配度,从而在多元分类数据的数据集中查找群组。

就分类方法而言,CHAID 是一个决策树,使用调整后的显著性检验检测变量之间的交互以确定多向拆分。其优势是易于理解和解释输出,也是直销的一个行业标准方法,可轻松处理分类和数值输入。CHAID 在较小的数据集上表现不太好,在回归和预测建模工作中通常和数据探查初始阶段相关联。CART(参见 参考资料)实际上是一个适用于分类和回归树的涵盖性术语,主要在其节点拆分标准上有所不同。ID3(参见 参考资料)是一个获得最小化熵节点的方法。


细分用例

业务场景:一个医疗保险公司对细分其客户群很感兴趣,希望借此确定宣传活动的最佳客户段,鼓励他们参与在线健康计划。我们的期望是,如果成员在护理的自主管理中承担重要角色,那么索赔将会减少、医疗成果将会增多,客户满意度和忠诚度也会随之而来。

医疗保险公司收集以下数据:计划类型、人口统计、索赔、参与健康和疾病管理计划、呼出和呼入电话详细信息、聊天和电子邮件、网站登录和信息搜寻会话、处方药数据以及其他个人层面的变量。处理该业务案例的可行细分方法是什么?

正如大多数应用分析案例一样,该流程涉及艺术和科学。

在某种程度上,方法选择实质上是一个关于分析师偏好、软件和相关算法可用性,以及对输出的验证和评估成功准则熟悉程度的问题。在这个用例中,可能应用一个相互依赖(没有因变量)集群,也可能应用相关(分类)方法。记住,后者需要一个因变量:如果数据支持成员识别,识别哪些已参与一个在线健康计划,哪些参与离线计划并与期望的成功标准相关联,那么该组可以使用 WellFlag=1 标记,而其他所有组可标记为 WellFlag=0。如果表示计算机用户的人口统计变量可用,或者如果成员记录包括一个电子邮件地址的话,那么这个二元标志可进一步细化,两者都可充当倾向拥有和使用计算机的代理。因为数据输入可以是字符或数字,所以 CHAID 是一个灵活的分类方法,将成员按类别和数值数据整齐地分成几部分,并支持更为详细的性能分析以帮助健康子计划和网站设计(基于医疗需要、疾病风险和目标需求)。

该细分也可使用一个集群方法进行处理,通过应用数值和使用该模型中包含的 “距离” 度量处理分类在其中应用平均法链接 (Average Linkage) 或 K 均值算法 (K-Means)。实际算法选择取决于所需输出。如果需要不同的集群(也就是说,一个成员应该参与一类健康计划),那么可以选择非 Fuzzy 选项,比如 K-Means 和 Normal。如果重叠集群比较合适,则规定使用 Factor 旋转和 Fuzzy 集群。最佳算法选择是下列过程的结果:首先准备数据集和适当转换分类值,然后通过各种候选方法运行数据集并检查图形输出,以查看集群相对大小和分组情况。这些图形允许比较和选择理想集群:那些拥有最佳分离和最紧凑集群的图形代表最佳方案。


细分和大数据含义

大数据 是这样一个术语,适用于个体层面上生成和存储的数千兆社交、移动、Web、文本和传感器数据。这些数据通常存储在非结构化数据库和工具中,比如位于 Apache Hadoop 平台上的 IBM InfoSphere® BigInsights™,同时有利于业务分析师(而不是机器学习专家)进行大规模分析。这些新技术支持访问大量且从未开发过的数据资源以及敏捷过滤和 MapReduce 功能,从而将包含非结构化数据(比如,图形、视频以及基于文本的意见)表示的值添加到传统数据集中。

本文描述的经典细分算法在大数据环境中依然可用:方法和选择标准保持不变。区别主要在于预处理和非结构化数据集成中,并承诺将产生更丰富、更可操作的细分成果。装配技术栈来访问大数据的企业有能力开发原本笨拙且通常难以接近的信息存储区。旨在管理大数据的许多开源解决方案以细分为基础,并筛选类似此处描述的原则。然而,这种方法不是全面分析数据,而是使获取筛选的大数据样例以及应用传统细分以获取新数字通道行为洞察成为可能。能够与这些新的非结构化数据资源配合得当,并将它们完全集成到一个多维分析中的企业还需要几个步骤就可实现客户 360 度全方位视图,并获取与深度消费者洞察相关的所有竞争性利益。

参考资料

学习

获得产品和技术

  • Rapid Miner 提供了几个细分软件,包括 SVMs
  • 了解有关 SPSS Advanced Statistics 的更多信息。
  • 以最适合您的方式 评估 IBM 产品:下载产品试用版,在线试用产品,在云环境下使用产品,或者在 SOA 沙盒 中花费几个小时来学习如何高效实现面向服务的架构。
  • 试用 IBM InfoSphere BigInsights Basic Edition,这是一款集成的、经过测试和预配置,可供所有想要体验 Hadoop 的用户免费下载的产品。您也可以在云中使用该产品。

讨论

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management, Industries
ArticleID=861125
ArticleTitle=最优细分方法和应用
publish-date=03122013