改进的购物篮分析效果更好
作者:文/中颢润数据分析师事务所;出处:《店长》2014年5月号 总第34期
收藏此文章 打印 字号     

  导读:在大数据时代,数据已经成为一种核心资产,谁拥有更多更好的数据,谁就将在未来的竞争中占据优势。阿里巴巴和腾讯一年来在各个领域进行了不同竞争,不论是支付宝与财付通、来往与微信、快的打车与滴滴打车。还是在地图市场的布局,其实都是为了抢占数据资源。零售行业由于其特殊的行业特点,天然是一个数据的蓝海,电商零售的庞大数据自不必说,线下零售企业也在日复一日、年复一年的运营中积累了大量的数据。以超市为例,超市每天都会积累大量的交易数据。这其中包括产品的销售时间、价格、销售店面的销售信息,以及会员的姓名、性别、年龄、联系方式等客户信息。

  中颢润(北京)数据分析师事务所在与零售企业的大量接触过程中发现,随着数据资产概念的逐步普及,许多超市已经开始关注对交易数据的分析。随之发展起来的购物篮分析为许多商超企业创造了价值。然而由于局限于交易事务性数据,利用关联分析对购物篮进行的分析不能挖掘到背后客户行为原因。为了解决这一问题,中颢润事务所将关联分析与聚类分析结合进行购物篮分析,不仅能够有效利用交易数据,发现顾客在购物时所选择的商品之间的联系,分析顾客购物行为习惯,辅助超市相关部门制定有效的营销策略,而且能够有效利用客户信息,挖掘客户购物行为背后的真正原因,提升顾客的购物体验,为超市企业创造有力的竞争力。

  1. 购物篮分析介绍

  随着经济的发展,消费者的消费观念日趋成熟,需求日趋呈现多样化趋势,竞争加剧。在这种外部环境下,企业开始认识到对消费者行为研究,挖掘客户购物行为背后原因的重要性和紧迫性。然而,虽然很多企业就此问题做了很多工作,但是效果不佳。如人口统计、计算机辅助销售、ERP系统搭建等,他们没有准确的把握消费者的心理、行为特点。1993年Agrawal等人第一次介绍了基于大量顾客交易数据的关联规则挖掘方法,以发现消费者购物行为特点。该方法被快速应用到零售行业,并逐渐发展成为零售行业重要的消费者行为分析方法,称之为购物篮分析。

  以沃尔玛为例,其购物篮分析在运营体系中占据了非常重要的地位。购物篮分析的结果不仅为门店的商品陈列、促销提供了有力的依据,更重要的是,沃尔玛充分了解了客户的真实需求,并帮助供应商开发了很多新的产品。沃尔玛的购物篮分析主要应用在如下领域:商品配置分析,哪些商品可以一起购买,关联商品如何陈列/促销;客户需求分析,分析顾客的购买习惯/顾客购买商品的时间/地点等;销售趋势分析,利用数据仓库对品种和库存的趋势分析,选定需要补充的商品,研究顾客购买趋势,分析季节性购买模式,确定降价商品;帮助供应商改进老产品及开发新品,通过购物篮分析,根据客户的需求,开发新的产品/改进老产品及产品包装。

  2. 关联分析与聚类分析介绍

  (1)关联分析

  对零售企业而言,有两个很重要的指标对于扩大销售规模是很重要的:第一,提高顾客重复购买次数;第二,提高客户的购物篮件数。第二个指标就是让客户从以前只购买一件产品转换到现在购买多件产品,从而提高整个购物篮的销售金额,最大限度地实现销售增长。但是如何挑出那些产品之间有关联销售的机会,从而形成相应的组合优惠套装呢?关联分析可以帮助企业实现这一目标。

  关联分析具体能用来做什么呢?可以用一句话来概括:即最大限度地从你口袋里面掏出更多的钱买我的产品。具体而言,通过关联规则,可以推出相应的促销礼包或优惠组合套装,快速帮助提高销售额;通过关联分析,可以通过产品关联程度大小,指导产品合理摆放,方便顾客最方便的购买更多其所需要的产品;通过关联分析,可以进行相关产品推荐或者挑选相应的关联产品进行精准营销;通过关联分析,可以寻找更多潜在的目标客户。

  零售业购物篮数据特点具有独特的特征,商品在购物篮里是否出现构成了一个典型多维的0—1数据向量(1表示出现,0表示未出现),传统购物篮分析就是通过关联分析研究商品之间的关联规则,关联规则框架包括3个参数,分别是支持度、置信度和提升度。

  ●关联规则形如X=>Y,其中X和Y是项集,在购物篮分析中,X,Y可以表示一种商品或者多种商品。X称为规则强项,Y称为规则后项。

  ●关联规则X=>Y的支持度S是包含XY的事务占总事务的百分比P(x,y)。

  ●关联规则X=>Y的置信度C是包含XY的事务占包含X的事务的百分比P(Y|X)。

  ●关联规则X=>Y的提升度L是对指定和未指定X时,包含Y的事务的百分比;有两种定义方法L=P(Y|X)/P(Y),L=P(Y|X)-P(Y)。

  在进行关联分析之前,需要确定最小支持度-min_S和最小置信度-min_C。对于支持度高于min_S的项集,称为频繁集;对于置信度高于min_C的规则,称为强规则。

  关联分析常用Apriori算法,第一步,找到所有频繁集;第二步,利用频繁集构造强关联规则。

  最后计算所有强规则的提升度,保留L=P(Y|X)/P(Y)>1或L=P(Y|X)-P(Y)>0的关联规则。

  零售企业在应用关联分析的时候也需要注意一些常见陷阱。首先,要注意购买产品赠送礼品的人为因素影响规则。在筛选关联规则的时候,必须对该企业过去一年开展的活动有了解,还必须对不同时间段的主推产品提前沟通,确保关联规则不受人为因素影响;其次要注意产品之间的位置摆放是否有很大的影响;此外还要注意关联推荐的规则合理性及流失成本的大小。

  (2)聚类分析

  聚类分析又称群分析,是根据“物以类聚”的道理,对样品或指标分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来合理的分类,没有任何模式可供参考或依循。即是在没有先验知识的情况下进行的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。

  在购物篮分析中使用聚类分析对客户分组,有利于挖掘消费者购物行为背后的原因,为企业制定营销策略提供指导。聚类根据消费者与消费者之间的距离或相似性,将距离较小或相似性最高的消费者划分为一个类别,直到将所有消费者进行划分。通过计算各个类别的消费者指标,即可得到各组消费者的特征,从而可以进一步挖掘消费者消费行为背后的原因。

  3. 案例应用分析

  中颢润事务所提供的本案例数据来源于某连锁超市分店2007年7月13号-25号的客户购物数据,共计7 694条记录,678个流水号。

  案例首先通过关联分析,挖掘出在该时间段下客户放入购物篮中商品之间的联系,然后再通过聚类分析对这些客户分组,研究不同客户群体的购物篮差异,为超市企业营销提供指导。

  (1)购物篮关联分析

  通过对该超市门店的数据关联分析,挖掘到了商品与商品之间的关联性,见表1。

 

1 购物篮分析数据流

前项

后项

前项支持度

后项支持度

规则支持度

置信度

提升度

液体奶,饼干

膨化食品

0.0841

0.1711

0.0251

29.8%

1.74

饼干,膨化食品

糖果

0.0782

0.1180

0.0236

30.2%

2.56

 

    ①前项支持度:包含前项的流水号占总流水号的百分比;

    ②后项支持度:包含后项的流水号占总流水号的百分比;

    ③规则支持度:包含前项和后项的流水号占总流水号的百分比;

    ④置信度:规则支持度与前项支持度的比值;

    ⑤提升度:置信度与后项支持度的比值。

  在设定的最小支持度0.02和最小置信度25%条件下,对提升度大于1的规则进行筛选,该关联规则模型共输出了两条规则。以“液体奶,饼干=>膨化食品”为例,该规则表示在2007年7月13号—25号的消费者中,8.4%的消费者同时购买了液体奶和饼干。其中29.8%的消费者还购买了膨化食品;当消费者购买液体奶和饼干后,购买膨化食品的百分比要比购买膨化食品消费者在全体消费者中的百分比高74%。这样超市可以将液体奶、饼干盒膨化食品摆放在相邻的位置。

  (2)消费者聚类分析

  通过对该超市门店的消费者信息数据进行K均值聚类分析,可以将2007年7月13号-25号的消费者划分为4个群组,各组特征见表2。

  

2  消费者聚类分组

 

组1

组2

组3

组4

学历

高中及专科
(80%以上)

本科及以上
(70%以上)

高中以下
(75%以上)

本科及以上
(65%)

年龄

平均32岁

平均20岁

平均27岁

平均43岁

婚姻状况

已婚(85%以上)

未婚(95%以上)

已婚(90%以上)

已婚(100%)

购买频率(次/月)

7

1

5

3

商品均价(元)

8.23

3.62

5.32

14.47

每次购商品数(件)

5.6

10.3

4.2

10.5

  从表2中可以看出,组1的消费者购买频次高,商品均价中等,但每次购买量少,从婚姻状况和平均年龄推断该组消费者大部分已为人父母;组2的消费者购买频次低,商品均价低,但购买量多,从年龄和学历推断该组消费者大部分为学生;组3的消费者购买频次一般,商品均价一般,购买量少;组4购买频次低,但商品均价和购买量高,是超市的高价值客户。

  (3)综合分析

  根据关联分析,发现消费者购买液体奶和饼干后,会继续购买膨化食品。消费者购买饼干和膨化食品后,会更乐意购买糖果。

  针对购买液体奶、饼干、膨化食品和购买饼干、膨化食品、糖果的消费者分别进行研究。

  ① 研究关联规则“液体奶,饼干=>膨化食品”

  购买液体奶、饼干和膨化食品的消费者中32.4%的消费者属于群组2,51.2%的消费者属于群组1,16.4%的消费者属于群组3和群组4。

  根据对群组2的消费者特征分析,可以推断群组2的消费者购买液体奶、饼干和膨化食品可能是为了在路上食用;根据对群组1的消费者特征分析,可以推断群组1的消费者购买液体奶、饼干和膨化食品可能是为了给孩子制作早餐。

  因此超市可以根据这两类人群的特征,推出供孩子食用的商品组合套餐,并将一些孩子喜爱的零食放在附件,以刺激消费者对其他商品的购买。在寒暑假期间推出供路上食用的商品组合套餐,刺激在外学生群体购买。

  ② 研究关联规则“饼干,膨化食品=>糖果”

  购买饼干、膨化食品和糖果的消费者中65.7%的消费者属于群组1,8.9%的消费者属于群组2,11.6%的消费者属于群组4,13.8%的消费者群于群组3。

  根据对群组1消费者特征的分析,由于这部分人群大部分已为人父母,因此这部分消费者购买饼干、膨化食品和糖果可能是为孩子提供了小零食。

  超市可以根据该群组消费者的特征,推出孩子喜爱的零食套餐,并将一些孩子喜爱的零食放在附件,以刺激消费者对其他商品的购买。

  4. 结论

  总之,关联分析是一个很有用的数据挖掘模型,能够帮助企业做很多有用的产品组合推荐和优惠促销组合。同时也能指导货架摆放是否合理,还能够找到更多的潜在客户,真正地把数据挖掘落到实处。

  中颢润北京数据分析师事务所在零售行业积累了大量的经验。我们在以往利用关联规则对购物篮进行分析的基础上,结合了对消费者行为特征信息的聚类分析,挖掘出在关联规则下,不同消费者群体购物背后的原因。针对不同消费者群体的购物原因制定相适应的营销策略,刺激消费者购买商品,提高超市商品销量,取得了非常显著的效果。