Analysis of user behavior of e-commerce websites

Slides:

Advertisements

Similar presentations

PROJECT NAME 项目名称上海xx文化传播有限公司.

Advertisements

学校教育科研项目过程性指导与研修课程建设

杨宇航百度社区技术部推荐技术在百度UGC产品中的应用杨宇航百度社区技术部

海关统计数据 ——中国进出口贸易信息分析系统贸易版 2013年7月.

点击输入贵公司名称年度工作总结汇报幻灯片模版工作总结年终汇报工作计划活动流程汇报部门：XXXX.

河北政法职业学院第八届教学技能大赛微课大赛

证券投资技术分析.

微课与微课程更多模板、视频教程：王珏 2013/7/8

CHAINFIN 供应链金融服务平台供应商物流商采购商融资签订合同，融资提供上游企业资质评估提供资质评估风控体系

北京爱迪科森教育科技股份有限公司网上报告厅助你学习一臂之力.

社会办医的学科建设宋冬雷神经外科/脑血管病专家上海德济医院创始合伙人中国非公立医疗机构协会常务理事.

Lazada919跨境电商大会报告部门：营销中心姓名：FENDOR.

关于学习、人生的交流 97级信号毕业生，送给有缘的您.

物业服务创新5大策略.

移动电子商务时代来临即刻“升级”还是等待被淘汰 PayPal 中国区产品总监赵祺信行软件CEO 周翔.

趣味单元作文（Seasons）作者及单位：东莞市虎门镇太平小学邹燕教材版本：(PEP)人教版小学英语（新版）

北京移动（中国移动的子公司）是中国主要的无线运营商之一。中国移动做为无线市场的开拓者，拥有中国70%的无线通信市场，也是世界上第二大的无线提供商，北京移动拥有上亿的手机用户，支持60多个国家的漫游业务。为北京移动创造的价值 … 优秀的性能，支持了庞大的用户群标准化了系统接口加强了系统的灵活性.

单击此处添加标题.

2016 工作总结PPT模板汇报人：XXX 时间：201X年XX月 XX日.

Harvard ManageMentor®

XXXX公司商业计划 INSERY YOU AWESOME CLEVER SLOGAN OR THEME IN THIS AREA

探索学习评价，促进学生发展方塔小学数学学科“情景化”测评活动方案松江区方塔小学徐雪勤 2016年9月13日.

P XX产品推广介绍 RODUCT INTRODUCTION PRESENTED BY JANE DOE LOGO|COMPANY.

Working increment of the product

基于相似用户群体图书推荐系统 Book recommendation system ——农E创客.

Introduction to AI and ML

Online job scheduling in Distributed Machine Learning Clusters

第十章方差分析.

数据挖掘工具性能比较.

Words describing people’s personality and physical appearance

构建一个“人本喜悦”的公众号东风本田汽车有限公司团委马杰.

在个别化音乐学习活动中的图谱运用闸北区安庆幼儿园曹云.

数据说明郝蕊.

常见介词的使用与比较.

程序设计工具实习 Software Program Tool

何勉新浪微博： Scrum框架及其背后的原则原始图片何勉新浪微博：

黑板手绘粉笔风格PPT模板【赠多款纹理+教程】

模型分类问题 Presented by 刘婷婷苏琬琳.

职场培训●工作计划●汇报总结●项目策划明确目标精准出击动态红黑双色，版式工整，通用实用，动态页面

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

Academic Search Premier DATABASE Full-Text Journals Full-Text Peer-Reviewed Journals Active Full-Text Peer-Reviewed Journals Academic Search Premier.

201x 公司LOGO LOGO XX公司年终总结 201x/10/18 201x

实体描述呈现方法的研究实验评估 2019/5/1.

中国风背景论文答辩模板某大学某某信息学院答辩学生：代用名指导老师：代用名答辩时间：201X年1月30日

Reading&Writing Two brothers By Qiu Yiyan Born to try

框架完整的商业项目计划书 BUSINESS PLAN.

相关与回归非确定关系在宏观上存在关系，但并未精确到可以用函数关系来表达。青少年身高与年龄，体重与体表面积非确定关系：

Logo 思维力量商务展示·企业内训.

2018 高端企业商业计划书PPT 汇报时间：2018年汇报人：优品PPT

第4课时绝对值.

第一部分：概率产生随机样本：对分布采样均匀分布其他分布伪随机数很多统计软件包中都有此工具如在Matlab中：rand

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

基于最大margin的决策树归纳李宁.

2014年终总结.

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

高等职业院校人才培养工作状态数据采集与管理平台

CLICK HERE TO ADD YOUR TITLE

投资建议书 XXX有限公司制作人：制作日期： mp2_v_styleguide_ ppt 1.

基于列存储的RDF数据管理朱敏

全國科學探究競賽籌備小組/國網中心蔣振宇 2019/03/15

我们欢聚一堂新员工入职培训 Westin有限公司 w 培训师 Westin 2016年3月19日.

第十七讲密码执行(1).

递延纳税和境内无住所个人居住时间判定相关政策分享

LOGO 年中工作汇报PPT模板在此处添加小标题主讲人：宝藏PPT 201X.X.X.

201X 手绘论文答辩模板 CONSECTETUR ADIPISICING ELIT.

Click here to add your title

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

04 03 add your text. add your text. add your text. add your text add your text. add your text. add your text. add your text. add your text add your text.

Presentation transcript:

Analysis of user behavior of e-commerce websites 电子商务网站用户行为分析 Analysis of user behavior of e-commerce websites 小组成员：吴严刚肖卓任方坡贡梦亭栾秋东使用方法：【更改文字】：将标题框及正文框中的文字可直接改为您所需文字【更改图片】：点中图片》绘图工具》格式》填充》图片》选择您需要展示的图片【增加减少图片】：直接复制粘贴图片来增加图片数，复制后更改方法见【更改图片】【更改图片色彩】：点中图片》图片工具》格式》色彩（重新着色）》选择您喜欢的色彩下载更多模板、视频教程：http://www.mysoeasy.com

前言 Introduction 2018年天猫双11再创历史新高，当天15点49分39秒，成交总额突破1682亿，轻松超越去年双11全天的成交总额，仅用时15小时49分39秒，创造了双11十年来的又一成交纪录。截止到2018年12月10日，淘宝卖家店铺有10181876家，天猫店铺有219086家。无论是大的品类还是小的品类都有许多经营多年的商家。为了从市场里脱颖而出，提高店铺的销量和利润，商家应做到知己知彼。电子商务活动每天产生大量的数据，这些数据包含了各类商业活动，主要有：卖家的经营数据、竞争对手的经营数据、买家的数据、市场的趋势数据等。在获得这些数据的前提下，有针对性地运营店铺，推销商品才能提高效率和销量。总的来说，大数据运营就是利用大量的数据来分析和指导淘宝电子商务卖家的生产，销售。数据反映出来的问题是直观的，商家可以通过观察数据，来找到背后的原因是什么，通过有针对性的优化，使得店铺销售额稳步增长。

目录 1 研究背景 2 数据预处理 3 数据挖掘 4 客户价值分析（RFM） 5 推荐系统 6 构建模型与评估 7 结论 PAGE DIRECTORY 5 推荐系统 6 构建模型与评估 7 结论

01 研究背景

1.1 问题确立大数据时代来临使企业营销点从产品转化为客户为中心，客户关系管理成为核心问题。对客户分类，可以帮助企业解决客户流失，资源利用不足等问题。 1.2 研究意义研究背景本项目，数据为2013年1月至2013年5月共2万6千多条电商交易记录，通过对用户的行为分析，实现客户细分精准营销。 1.3 研究目标 1、通过时序图找到产品季节过渡期 2、建立客户价值模型，提出有利方案 3、根据产品的特点以及用户消费的行为特点建立推荐系统，总体提升客户忠诚度以及消费水平。使用方法：【更改文字】：将标题框及正文框中的文字可直接改为您所需文字【更改图片】：点中图片》绘图工具》格式》填充》图片》选择您需要展示的图片【增加减少图片】：直接复制粘贴图片来增加图片数，复制后更改方法见【更改图片】【更改图片色彩】：点中图片》图片工具》格式》色彩（重新着色）》选择您喜欢的色彩下载更多模板、视频教程：http://www.mysoeasy.com

02 数据预处理

数据预处理缺失值处理数据转换共有26803个记录，21个特征，其中“买家支付宝账号” “订单付款时间”，“物流公司”存在缺失值

03 数据挖掘

用户收货地址分布左图只显示了用户收货地址频数最高的前10个省份，大都分布在沿海省份，需求量最大的是北京，并且表明业务主战场定位在沿海城市，右图内地市场空白大，尤其是西北部地区用户购买数量最少，所以应加大对内地市场以及西北部市场的开发。

购买次数时序图从2013年1月20左右进入换季期，产品销量日下降幅度大，到2月初下降幅度趋于平稳，之后到2013年2月23过后，换季期产品销量日增幅度大。所以在下一年时，结合环境气温，关注好1月到2月的时间点，尽量做到在换季前开始小幅度实行促销，在过渡期做好新产品的库存，以及发掘爆款产品。

下单数时点分布从每日下单的时点数量可以看出，下单量集中在下午的一点到四点，以及夜晚的九点到十点。在这段时间请将机器客服转为人工客服，以及对店铺产品实时更新。

产品下单数量左图显示的13点-16点不同产品销售数量分布，右图是20点-21点不同产品销售数量分布。产品编号3990下单量比较多，所以平台应对该产品多加推送。

消费金额分布图从这两幅图中得出：总体用户消费能力在1000以内，其占比为73%。

商品描述词云图

04 RFM

客户价值模型根据RMF三个字段通过聚类发现将客户分为四类是最好的。客户群一：流失率高，满意度低，价值也低将其定位为不好的客户。客户群二：流失率小，满意度高，但是消费低。客户群三：流失率小，满意度高，消费能力也高。客户群四：流失率小，满意度高，消费能力属于中等水平。

05 推荐系统

商品关联规则推荐按照提升度降序排列

通过产品与产品之间的关系建立关联规则，给店铺提供套餐设置和捆绑销售。商品关联规则推荐通过产品与产品之间的关系建立关联规则，给店铺提供套餐设置和捆绑销售。

基于物品协同过滤通过IBCF根据用户过去的购买商品，找到商品相似的物品群，根据用户的喜好实行精准推荐。

基于物品协同过滤

基于物品协同过滤历史：蝙蝠松垮T恤，蕾丝无袖背心，9分女裤，泡泡袖雪纺衫，小脚女裤子推荐：连体女裤子，针织连衣裙，刺绣蕾丝套衫，圆领T恤，纯棉女T恤

06 构建模型与评估

此步骤初步筛选去除了12个变量，此时还剩下8个自变量与1个因变量筛选特征变量原始数据有21个变量，构建分类模型，把“订单状态”当做Y变量(0--交易失败 1--交易成功) “订单创建时间”，“订单付款时间 ”对“是否购买”无影响 “买家支付积分”、“返点积分”、“买家实际支付积分”、数值全部为0 其中“订单编号”、“买家会员名”，“买家支付宝账号”没有实际的意义假设“物流公司”、“收货地址”、“运送方式”、“宝贝标题”无影响此步骤初步筛选去除了12个变量，此时还剩下8个自变量与1个因变量

筛选特征变量图5-1-1 方差膨胀因子从业务出发，VIF大于2则可能存在共线性，从输出图中得出 “买家应付货款”存在共线性，应予以剔除。此时“总金额”的VIF为4.423，考虑排除。

剔除“买家应付货款”与“总金额”后，VIF全部小于2。筛选特征变量图5-1-2 方差膨胀因子剔除“买家应付货款”与“总金额”后，VIF全部小于2。

此步骤再次筛选去除了3个变量，最终还剩下5个自变量与1个因变量。下一步开始进行建模。筛选特征变量从图中可以得知，存在1个强影响点（买家实际支付金额），为了建模的稳定性，强影响点需要剔除。还可以看出有三对变量之间的相关性大于0.8，可能存在共线性。分别是“总金额”与“买家应付货款”的相关性为1；“宝贝种类”与“买家应付货款”的相关性为0.82；“宝贝种类”与“总金额”的相关性为0.81。也进一步验证了上步VIF的检验。此步骤再次筛选去除了3个变量，最终还剩下5个自变量与1个因变量。下一步开始进行建模。图5-2 相关系数图

通过使用逻辑函数估计概率来度量分类因变量与自变量之间的关系。逻辑回归与SGD 通过使用逻辑函数估计概率来度量分类因变量与自变量之间的关系。从上面的输出可看出，LogisticRegression 的Accuracy为0.780778988210 SGDClassifier 的Accuracy为0.780629756527 所以LogisticRegressiom比起SGDClassifier略高，有更好的预测效果 LogisticRegression与SGDClassifier相比，前者对参数的计算采用精确解析的方式，计算时间长但是模型性能略高。后者采用随机梯度上升的算法估计模型参数，计算时间段但是性能略低。10万级以上的数据使用后者

逻辑回归与SGD 利用classification_report 中获得precision,recall和非f1-score三个指标。但是这三个指标在LogisticRegression和SGDClassifier上面没有区别，因为广义上两者仅仅是在选取样本集上有所差别

支持向量机SVM 支持向量机是具有关联学习算法的监督学习模型。考虑如何最大限度地为未知分布的数据提供足够的待预测空间。在解决小样本、非线性及中表现出较佳。支持向量机的Accuracy为0.7806297，Precision为0.83，Recall为1，f1-score为0.69

K近邻近朱者赤近墨者黑 K近邻的Accuracy为0.76391583345，Precision为0.89，Recall为0.76，f1-score为0.81。该模型没有参数训练过程，也就是说，我们并没有通过任何学习算法分析训练数据，而只是根据测试样本在训练数据的分布直接作出分类决策。该模型每处理一个测试样本，都需要对所有训练样本进行遍历，逐一计算相似度，排序并且选取K个最近邻训练样本的标记，进而作出分类决策。数据为平方级别。

决策树描述非线性关系，分段函数决策树的Accuracy为0.76809431428，Precision为0.89，Recall为0.77，f1-score为0.82

随机森林在相同训练数据上同时搭建多棵决策树随机森林的Accuracy为0.7786897477，Precision为0.92，Recall为0.78，f1-score为0.84 项目一

梯度提升决策树按照一定次序搭建多个分类模型目一 Gradient Tree Boosting 的Accuracy为0.78719594，Precision为0.99，Recall为0.79，f1-score为0.86

集成学习一个篱笆三个桩，一个好汉三个帮目一 voting classifier方法 “hard”对应的就是少数服从多数的投票方式

总结综合考虑：集成学习>梯度提升决策树>随机森林>决策树 >梯度下降>支持向量机>逻辑回归>>>K近邻所以最终选择支持向量机，决策树，梯度决策树构成的集成算法，最终模型的得分为78.78%

07 结论

项目总结本项目是基于一个近半年的电子商务的购物数据。提供了半年年内在电子商务平台上购买的详细信息。数据集中的每个条目描述了一个产品的情况，一个特定的客户和一个给定的日期。对这些数据，我们得出了以下结论：第一部分进行数据挖掘，发现13点-16点、20点-21点9分女裤子的下单量最高；第二部分建立RFM将客户分为4类，从而精确营销。再由推荐系统找到商品相似的物品群，根据用户的喜好实行精准推荐；第三部分建模，通过四个指标的综合比较，选择集成学习模型。前景展望本项目有明确的业务导向，致力于解决企业目前所面临的客户流失、提高购物体验等运营和营销问题，能够运用于精准营销和推荐系统构建客户画像等多个领域，具有较大的商业价值。可能存在缺陷 1. 基于item的协同过滤中用户对于产品的评分未知。 2. 只有5个月的数据用来训练模型，数据量比较少，模型的预测效果不够精确。

THANK YOU 39