Analysis of user behavior of e-commerce websites 电子商务网站用户行为分析 Analysis of user behavior of e-commerce websites 小组成员:吴严刚 肖卓 任方坡 贡梦亭 栾秋东 使用方法: 【更改文字】:将标题框及正文框中的文字可直接改为您所需文字 【更改图片】:点中图片》绘图工具》格式》填充》图片》选择您需要展示的图片 【增加减少图片】:直接复制粘贴图片来增加图片数,复制后更改方法见【更改图片】 【更改图片色彩】:点中图片》图片工具》格式》色彩(重新着色)》选择您喜欢的色彩 下载更多模板、视频教程:http://www.mysoeasy.com
前言 Introduction 2018年天猫双11再创历史新高,当天15点49分39秒,成交总额突破1682亿,轻松超越去年双11全天的成交总额,仅用时15小时49分39秒,创造了双11十年来的又一成交纪录。 截止到2018年12月10日,淘宝卖家店铺有10181876家,天猫店铺有219086家。无论是大的品类还是小的品类都有许多经营多年的商家。为了从市场里脱颖而出,提高店铺的销量和利润,商家应做到知己知彼。电子商务活动每天产生大量的数据,这些数据包含了各类商业活动,主要有:卖家的经营数据、竞争对手的经营数据、买家的数据、市场的趋势数据等。在获得这些数据的前提下,有针对性地运营店铺,推销商品才能提高效率和销量。总的来说,大数据运营就是利用大量的数据来分析和指导淘宝电子商务卖家的生产,销售。数据反映出来的问题是直观的,商家可以通过观察数据,来找到背后的原因是什么,通过有针对性的优化,使得店铺销售额稳步增长。
目录 1 研究背景 2 数据预处理 3 数据挖掘 4 客户价值分析(RFM) 5 推荐系统 6 构建模型与评估 7 结论 PAGE DIRECTORY 5 推荐系统 6 构建模型与评估 7 结论
01 研究背景
1.1 问题确立 大数据时代来临使企业营销点从产品转化为客户为中心,客户关系管理成为核心问题。对客户分类,可以帮助企业解决客户流失,资源利用不足等问题。 1.2 研究意义 研究背景 本项目,数据为2013年1月至2013年5月共2万6千多条电商交易记录,通过对用户的行为分析,实现客户细分精准营销。 1.3 研究目标 1、通过时序图找到产品季节过渡期 2、建立客户价值模型,提出有利方案 3、根据产品的特点以及用户消费的行为特点建立 推荐系统,总体提升客户忠诚度以及消费水平。 使用方法: 【更改文字】:将标题框及正文框中的文字可直接改为您所需文字 【更改图片】:点中图片》绘图工具》格式》填充》图片》选择您需要展示的图片 【增加减少图片】:直接复制粘贴图片来增加图片数,复制后更改方法见【更改图片】 【更改图片色彩】:点中图片》图片工具》格式》色彩(重新着色)》选择您喜欢的色彩 下载更多模板、视频教程:http://www.mysoeasy.com
02 数据预处理
数据预处理 缺失值处理 数据转换 共有26803个记录,21个特征,其中“买家支付宝账号” “订单付款时间”,“物流公司”存在缺失值
03 数据挖掘
用户收货地址分布 左图只显示了用户收货地址频数最高的前10个省份,大都分布在沿海省份,需求量最大的是北京,并且表明业务主战场定位在沿海城市,右图内地市场空白大,尤其是西北部地区用户购买数量最少,所以应加大对内地市场以及西北部市场的开发。
购买次数时序图 从2013年1月20左右进入换季期,产品销量日下降幅度大,到2月初下降幅度趋于平稳,之后到2013年2月23过后,换季期产品销量日增幅度大。所以在下一年时,结合环境气温,关注好1月到2月的时间点,尽量做到在换季前开始小幅度实行促销,在过渡期做好新产品的库存,以及发掘爆款产品。
下单数时点分布 从每日下单的时点数量可以看出,下单量集中在下午的一点到四点,以及夜晚的九点到十点。在这段时间请将机器客服转为人工客服,以及对店铺产品实时更新。
产品下单数量 左图显示的13点-16点不同产品销售数量分布,右图是20点-21点不同产品销售数量分布。 产品编号3990下单量比较多,所以平台应对该产品多加推送。
消费金额分布图 从这两幅图中得出:总体用户消费能力在1000以内,其占比为73%。
商品描述词云图
04 RFM
客户价值模型 根据RMF三个字段通过聚类发现将客户分为四类是最好的。 客户群一:流失率高,满意度低,价值也低将其定位为不好的客户。 客户群二:流失率小,满意度高,但是消费低。 客户群三:流失率小,满意度高,消费能力也高。 客户群四:流失率小,满意度高,消费能力属于中等水平。
05 推荐系统
商品关联规则推荐 按照提升度降序排列
通过产品与产品之间的关系建立关联规则,给店铺提供套餐设置和捆绑销售。 商品关联规则推荐 通过产品与产品之间的关系建立关联规则,给店铺提供套餐设置和捆绑销售。
基于物品协同过滤 通过IBCF根据用户过去的购买商品,找到商品相似的物品群,根据用户的喜好实行精准推荐。
基于物品协同过滤
基于物品协同过滤 历史:蝙蝠松垮T恤,蕾丝无袖背心,9分女裤,泡泡袖雪纺衫 ,小脚女裤子 推荐:连体女裤子,针织连衣裙,刺绣蕾丝套衫,圆领T恤,纯棉女T恤
06 构建模型与评估
此步骤初步筛选去除了12个变量,此时还剩下8个自变量与1个因变量 筛选特征变量 原始数据有21个变量,构建分类模型,把“订单状态”当做Y变量(0--交易失败 1--交易成功) “订单创建时间”,“订单付款时间 ”对“是否购买”无影响 “买家支付积分”、“返点积分”、“买家实际支付积分”、数值全部为0 其中“订单编号”、“买家会员名”,“买家支付宝账号”没有实际的意义 假设“物流公司”、“收货地址”、“运送方式”、“宝贝标题”无影响 此步骤初步筛选去除了12个变量,此时还剩下8个自变量与1个因变量
筛选特征变量 图5-1-1 方差膨胀因子 从业务出发,VIF大于2则可能存在共线性,从输出图中得出 “买家应付货款”存在共线性,应予以剔除。此时“总金额”的VIF为4.423,考虑排除。
剔除“买家应付货款”与“总金额”后,VIF全部小于2。 筛选特征变量 图5-1-2 方差膨胀因子 剔除“买家应付货款”与“总金额”后,VIF全部小于2。
此步骤再次筛选去除了3个变量,最终还剩下5个自变量与1个因变量。下一步开始进行建模。 筛选特征变量 从图中可以得知,存在1个强影响点(买家实际支付金额),为了建模的稳定性,强影响点需要剔除。 还可以看出有三对变量之间的相关性大于0.8,可能存在共线性。分别是“总金额”与“买家应付货款”的相关性为1;“宝贝种类”与“买家应付货款”的相关性为0.82;“宝贝种类”与“总金额”的相关性为0.81。也进一步验证了上步VIF的检验。 此步骤再次筛选去除了3个变量,最终还剩下5个自变量与1个因变量。下一步开始进行建模。 图5-2 相关系数图
通过使用逻辑函数估计概率来度量分类因变量与自变量之间的关系。 逻辑回归与SGD 通过使用逻辑函数估计概率来度量分类因变量与自变量之间的关系。 从上面的输出可看出,LogisticRegression 的Accuracy为0.780778988210 SGDClassifier 的Accuracy为0.780629756527 所以LogisticRegressiom比起SGDClassifier略高,有更好的预测效果 LogisticRegression与SGDClassifier相比,前者对参数的计算采用精确解析的方式,计算时间长但是模型性能略高。后者采用随机梯度上升的算法估计模型参数,计算时间段但是性能略低。10万级以上的数据使用后者
逻辑回归与SGD 利用classification_report 中获得precision,recall和非f1-score三个指标。但是这三个指标在LogisticRegression和SGDClassifier上面没有区别,因为广义上两者仅仅是在选取样本集上有所差别
支持向量机SVM 支持向量机是具有关联学习算法的监督学习模型。考虑如何最大限度地为未知分布的数据提供足够的待预测空间。在解决小样本、非线性及中表现出较佳。 支持向量机的Accuracy为0.7806297,Precision为0.83,Recall为1,f1-score为0.69
K近邻 近朱者赤 近墨者黑 K近邻的Accuracy为0.76391583345,Precision为0.89,Recall为0.76,f1-score为0.81。该模型没有参数训练过程,也就是说,我们并没有通过任何学习算法分析训练数据,而只是根据测试样本在训练数据的分布直接作出分类决策。该模型每处理一个测试样本,都需要对所有训练样本进行遍历,逐一计算相似度,排序并且选取K个最近邻训练样本的标记,进而作出分类决策。数据为平方级别。
决策树 描述非线性关系,分段函数 决策树的Accuracy为0.76809431428,Precision为0.89,Recall为0.77,f1-score为0.82
随机森林 在相同训练数据上同时搭建多棵决策树 随机森林的Accuracy为0.7786897477,Precision为0.92,Recall为0.78,f1-score为0.84 项目一
梯度提升决策树 按照一定次序搭建多个分类模型 目一 Gradient Tree Boosting 的Accuracy为0.78719594,Precision为0.99,Recall为0.79,f1-score为0.86
集成学习 一个篱笆三个桩,一个好汉三个帮 目一 voting classifier方法 “hard”对应的就是少数服从多数的投票方式
总结 综合考虑:集成学习>梯度提升决策树>随机森林>决策树 >梯度下降>支持向量机>逻辑回归>>>K近邻 所以最终选择支持向量机,决策树,梯度决策树构成的集成算法,最终模型的得分为78.78%
07 结论
项目总结 本项目是基于一个近半年的电子商务的购物数据。提供了半年年内在电子商 务平台上购买的详细信息。数据集中的每个条目描述了一个产品的情况,一个特 定的客户和一个给定的日期。对这些数据,我们得出了以下结论: 第一部分进行数据挖掘,发现13点-16点、20点-21点9分女裤子的下单量最高; 第二部分建立RFM将客户分为4类,从而精确营销。再由推荐系统找到商品相似 的物品群,根据用户的喜好实行精准推荐; 第三部分建模,通过四个指标的综合比较,选择集成学习模型。 前景展望 本项目有明确的业务导向,致力于解决企业目前所面临的客户流失、提高购物 体验等运营和营销问题,能够运用于精准营销和推荐系统构建客户画像等多个领域, 具有较大的商业价值。 可能存在缺陷 1. 基于item的协同过滤中用户对于产品的评分未知。 2. 只有5个月的数据用来训练模型,数据量比较少,模型的预测效果不够精确。
THANK YOU 39