Analysis of user behavior of e-commerce websites

Slides:



Advertisements
Similar presentations
PROJECT NAME 项目名称 上海xx文化传播有限公司.
Advertisements

学校教育科研项目过程性 指导与研修课程建设
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
海关统计数据 ——中国进出口贸易信息分析系统 贸易版 2013年7月.
点击输入贵公司名称 年度工作总结汇报幻灯片模版 工作总结 年终汇报 工作计划 活动流程 汇报部门:XXXX.
河北政法职业学院第八届教学技能大赛微课大赛
证券投资技术分析.
微课与微课程 更多模板、视频教程: 王珏 2013/7/8
CHAINFIN 供应链金融服务平台 供应商 物流商 采购商 融资 签订合同,融资 提供上游企业资质评估 提供资质评估 风控体系
北京爱迪科森教育科技股份有限公司 网上报告厅 助你学习一臂之力.
社会办医的学科建设 宋冬雷 神经外科/脑血管病专家 上海德济医院创始合伙人 中国非公立医疗机构协会常务理事.
Lazada919跨境电商大会报告 部门:营销中心 姓名:FENDOR.
关于学习、人生的交流 97级信号毕业生,送给有缘的您.
物业服务创新5大策略.
移动电子商务时代来临 即刻“升级”还是等待被淘汰 PayPal 中国区产品总监 赵祺 信行软件CEO 周翔.
趣味单元作文(Seasons) 作者及单位:东莞市虎门镇太平小学邹燕 教材版本:(PEP)人教版小学英语(新版)
北京移动(中国移动的子公司)是中国主要的无线运营商之一。中国移动做为无线市场的开拓者,拥有中国70%的无线通信市场,也是世界上第二大的无线提供商,北京移动拥有上亿的手机用户,支持60多个国家的漫游业务。 为北京移动创造的价值 … 优秀的性能,支持了庞大的用户群 标准化了系统接口 加强了系统的灵活性.
单击此处添加标题.
2016 工作总结PPT模板 汇报人:XXX 时间:201X年XX月 XX日.
Harvard ManageMentor®
XXXX公司商业计划 INSERY YOU AWESOME CLEVER SLOGAN OR THEME IN THIS AREA
探索学习评价,促进学生发展 方塔小学数学学科“情景化”测评活动方案 松江区方塔小学 徐雪勤 2016年9月13日.
P XX产品推广介绍 RODUCT INTRODUCTION PRESENTED BY JANE DOE LOGO|COMPANY.
跨境物流.
Working increment of the product
基于相似用户群体 图书推荐系统 Book recommendation system ——农E创客.
Introduction to AI and ML
Online job scheduling in Distributed Machine Learning Clusters
第十章 方差分析.
数据挖掘工具性能比较.
Words describing people’s personality and physical appearance
构建一个“人本喜悦”的公众号 东风本田汽车有限公司团委 马杰.
在个别化音乐学习活动中的图谱运用 闸北区安庆幼儿园 曹云.
数据说明 郝蕊.
常见介词的使用与比较.
程序设计工具实习 Software Program Tool
何勉 新浪微博: Scrum框架及其背后的原则 原始图片 何勉 新浪微博:
黑板手绘粉笔风格PPT模板【赠多款纹理+教程】
模型分类问题 Presented by 刘婷婷 苏琬琳.
职场培训●工作计划●汇报总结●项目策划 明确目标 精准出击 动态 红黑双色,版式工整,通用实用,动态页面
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
Academic Search Premier DATABASE Full-Text Journals Full-Text Peer-Reviewed Journals Active Full-Text Peer-Reviewed Journals Academic Search Premier.
201x 公司LOGO LOGO XX公司年终总结 201x/10/18 201x
实体描述呈现方法的研究 实验评估 2019/5/1.
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
Reading&Writing Two brothers By Qiu Yiyan Born to try
框架完整的 商业项目计划书 BUSINESS PLAN.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
Logo 思维 力量 商务展示·企业内训.
2018 高端企业商业计划书PPT 汇报时间:2018年 汇报人:优品PPT
第4课时 绝对值.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
基于最大margin的决策树归纳 李 宁.
2014年终总结.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
高等职业院校人才培养工作 状态数据采集与管理平台
CLICK HERE TO ADD YOUR TITLE
投资建议书 XXX有限公司 制作人: 制作日期: mp2_v_styleguide_ ppt 1.
基于列存储的RDF数据管理 朱敏
全國科學探究競賽籌備小組/國網中心 蔣振宇 2019/03/15
我们 欢聚一堂 新员工入职培训 Westin有限公司 w 培训师 Westin 2016年3月19日.
第十七讲 密码执行(1).
递延纳税和 境内无住所个人居住时间判定 相关政策分享
LOGO 年中工作汇报PPT模板 在此处添加小标题 主讲人:宝藏PPT 201X.X.X.
201X 手绘论文答辩模板 CONSECTETUR ADIPISICING ELIT.
Click here to add your title
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
04 03 add your text. add your text. add your text. add your text add your text. add your text. add your text. add your text. add your text add your text.
Presentation transcript:

Analysis of user behavior of e-commerce websites 电子商务网站用户行为分析 Analysis of user behavior of e-commerce websites 小组成员:吴严刚 肖卓 任方坡 贡梦亭 栾秋东 使用方法: 【更改文字】:将标题框及正文框中的文字可直接改为您所需文字 【更改图片】:点中图片》绘图工具》格式》填充》图片》选择您需要展示的图片 【增加减少图片】:直接复制粘贴图片来增加图片数,复制后更改方法见【更改图片】 【更改图片色彩】:点中图片》图片工具》格式》色彩(重新着色)》选择您喜欢的色彩 下载更多模板、视频教程:http://www.mysoeasy.com

前言 Introduction 2018年天猫双11再创历史新高,当天15点49分39秒,成交总额突破1682亿,轻松超越去年双11全天的成交总额,仅用时15小时49分39秒,创造了双11十年来的又一成交纪录。 截止到2018年12月10日,淘宝卖家店铺有10181876家,天猫店铺有219086家。无论是大的品类还是小的品类都有许多经营多年的商家。为了从市场里脱颖而出,提高店铺的销量和利润,商家应做到知己知彼。电子商务活动每天产生大量的数据,这些数据包含了各类商业活动,主要有:卖家的经营数据、竞争对手的经营数据、买家的数据、市场的趋势数据等。在获得这些数据的前提下,有针对性地运营店铺,推销商品才能提高效率和销量。总的来说,大数据运营就是利用大量的数据来分析和指导淘宝电子商务卖家的生产,销售。数据反映出来的问题是直观的,商家可以通过观察数据,来找到背后的原因是什么,通过有针对性的优化,使得店铺销售额稳步增长。

目录 1 研究背景 2 数据预处理 3 数据挖掘 4 客户价值分析(RFM) 5 推荐系统 6 构建模型与评估 7 结论 PAGE DIRECTORY 5 推荐系统 6 构建模型与评估 7 结论

01 研究背景

1.1 问题确立 大数据时代来临使企业营销点从产品转化为客户为中心,客户关系管理成为核心问题。对客户分类,可以帮助企业解决客户流失,资源利用不足等问题。 1.2 研究意义 研究背景 本项目,数据为2013年1月至2013年5月共2万6千多条电商交易记录,通过对用户的行为分析,实现客户细分精准营销。 1.3 研究目标 1、通过时序图找到产品季节过渡期 2、建立客户价值模型,提出有利方案 3、根据产品的特点以及用户消费的行为特点建立 推荐系统,总体提升客户忠诚度以及消费水平。 使用方法: 【更改文字】:将标题框及正文框中的文字可直接改为您所需文字 【更改图片】:点中图片》绘图工具》格式》填充》图片》选择您需要展示的图片 【增加减少图片】:直接复制粘贴图片来增加图片数,复制后更改方法见【更改图片】 【更改图片色彩】:点中图片》图片工具》格式》色彩(重新着色)》选择您喜欢的色彩 下载更多模板、视频教程:http://www.mysoeasy.com

02 数据预处理

数据预处理 缺失值处理 数据转换 共有26803个记录,21个特征,其中“买家支付宝账号” “订单付款时间”,“物流公司”存在缺失值

03 数据挖掘

用户收货地址分布 左图只显示了用户收货地址频数最高的前10个省份,大都分布在沿海省份,需求量最大的是北京,并且表明业务主战场定位在沿海城市,右图内地市场空白大,尤其是西北部地区用户购买数量最少,所以应加大对内地市场以及西北部市场的开发。

购买次数时序图 从2013年1月20左右进入换季期,产品销量日下降幅度大,到2月初下降幅度趋于平稳,之后到2013年2月23过后,换季期产品销量日增幅度大。所以在下一年时,结合环境气温,关注好1月到2月的时间点,尽量做到在换季前开始小幅度实行促销,在过渡期做好新产品的库存,以及发掘爆款产品。

下单数时点分布 从每日下单的时点数量可以看出,下单量集中在下午的一点到四点,以及夜晚的九点到十点。在这段时间请将机器客服转为人工客服,以及对店铺产品实时更新。

产品下单数量 左图显示的13点-16点不同产品销售数量分布,右图是20点-21点不同产品销售数量分布。 产品编号3990下单量比较多,所以平台应对该产品多加推送。

消费金额分布图 从这两幅图中得出:总体用户消费能力在1000以内,其占比为73%。

商品描述词云图

04 RFM

客户价值模型 根据RMF三个字段通过聚类发现将客户分为四类是最好的。 客户群一:流失率高,满意度低,价值也低将其定位为不好的客户。 客户群二:流失率小,满意度高,但是消费低。 客户群三:流失率小,满意度高,消费能力也高。 客户群四:流失率小,满意度高,消费能力属于中等水平。

05 推荐系统

商品关联规则推荐 按照提升度降序排列

通过产品与产品之间的关系建立关联规则,给店铺提供套餐设置和捆绑销售。 商品关联规则推荐 通过产品与产品之间的关系建立关联规则,给店铺提供套餐设置和捆绑销售。

基于物品协同过滤 通过IBCF根据用户过去的购买商品,找到商品相似的物品群,根据用户的喜好实行精准推荐。

基于物品协同过滤

基于物品协同过滤 历史:蝙蝠松垮T恤,蕾丝无袖背心,9分女裤,泡泡袖雪纺衫 ,小脚女裤子 推荐:连体女裤子,针织连衣裙,刺绣蕾丝套衫,圆领T恤,纯棉女T恤

06 构建模型与评估

此步骤初步筛选去除了12个变量,此时还剩下8个自变量与1个因变量 筛选特征变量 原始数据有21个变量,构建分类模型,把“订单状态”当做Y变量(0--交易失败 1--交易成功) “订单创建时间”,“订单付款时间 ”对“是否购买”无影响 “买家支付积分”、“返点积分”、“买家实际支付积分”、数值全部为0 其中“订单编号”、“买家会员名”,“买家支付宝账号”没有实际的意义 假设“物流公司”、“收货地址”、“运送方式”、“宝贝标题”无影响 此步骤初步筛选去除了12个变量,此时还剩下8个自变量与1个因变量

筛选特征变量 图5-1-1 方差膨胀因子 从业务出发,VIF大于2则可能存在共线性,从输出图中得出 “买家应付货款”存在共线性,应予以剔除。此时“总金额”的VIF为4.423,考虑排除。

剔除“买家应付货款”与“总金额”后,VIF全部小于2。 筛选特征变量 图5-1-2 方差膨胀因子 剔除“买家应付货款”与“总金额”后,VIF全部小于2。

此步骤再次筛选去除了3个变量,最终还剩下5个自变量与1个因变量。下一步开始进行建模。 筛选特征变量 从图中可以得知,存在1个强影响点(买家实际支付金额),为了建模的稳定性,强影响点需要剔除。 还可以看出有三对变量之间的相关性大于0.8,可能存在共线性。分别是“总金额”与“买家应付货款”的相关性为1;“宝贝种类”与“买家应付货款”的相关性为0.82;“宝贝种类”与“总金额”的相关性为0.81。也进一步验证了上步VIF的检验。 此步骤再次筛选去除了3个变量,最终还剩下5个自变量与1个因变量。下一步开始进行建模。 图5-2 相关系数图

通过使用逻辑函数估计概率来度量分类因变量与自变量之间的关系。 逻辑回归与SGD 通过使用逻辑函数估计概率来度量分类因变量与自变量之间的关系。 从上面的输出可看出,LogisticRegression 的Accuracy为0.780778988210 SGDClassifier 的Accuracy为0.780629756527 所以LogisticRegressiom比起SGDClassifier略高,有更好的预测效果 LogisticRegression与SGDClassifier相比,前者对参数的计算采用精确解析的方式,计算时间长但是模型性能略高。后者采用随机梯度上升的算法估计模型参数,计算时间段但是性能略低。10万级以上的数据使用后者

逻辑回归与SGD 利用classification_report 中获得precision,recall和非f1-score三个指标。但是这三个指标在LogisticRegression和SGDClassifier上面没有区别,因为广义上两者仅仅是在选取样本集上有所差别

支持向量机SVM 支持向量机是具有关联学习算法的监督学习模型。考虑如何最大限度地为未知分布的数据提供足够的待预测空间。在解决小样本、非线性及中表现出较佳。 支持向量机的Accuracy为0.7806297,Precision为0.83,Recall为1,f1-score为0.69

K近邻 近朱者赤 近墨者黑 K近邻的Accuracy为0.76391583345,Precision为0.89,Recall为0.76,f1-score为0.81。该模型没有参数训练过程,也就是说,我们并没有通过任何学习算法分析训练数据,而只是根据测试样本在训练数据的分布直接作出分类决策。该模型每处理一个测试样本,都需要对所有训练样本进行遍历,逐一计算相似度,排序并且选取K个最近邻训练样本的标记,进而作出分类决策。数据为平方级别。

决策树 描述非线性关系,分段函数 决策树的Accuracy为0.76809431428,Precision为0.89,Recall为0.77,f1-score为0.82

随机森林 在相同训练数据上同时搭建多棵决策树 随机森林的Accuracy为0.7786897477,Precision为0.92,Recall为0.78,f1-score为0.84 项目一

梯度提升决策树 按照一定次序搭建多个分类模型 目一 Gradient Tree Boosting 的Accuracy为0.78719594,Precision为0.99,Recall为0.79,f1-score为0.86

集成学习 一个篱笆三个桩,一个好汉三个帮 目一 voting classifier方法 “hard”对应的就是少数服从多数的投票方式

总结 综合考虑:集成学习>梯度提升决策树>随机森林>决策树 >梯度下降>支持向量机>逻辑回归>>>K近邻 所以最终选择支持向量机,决策树,梯度决策树构成的集成算法,最终模型的得分为78.78%

07 结论

项目总结 本项目是基于一个近半年的电子商务的购物数据。提供了半年年内在电子商 务平台上购买的详细信息。数据集中的每个条目描述了一个产品的情况,一个特 定的客户和一个给定的日期。对这些数据,我们得出了以下结论: 第一部分进行数据挖掘,发现13点-16点、20点-21点9分女裤子的下单量最高; 第二部分建立RFM将客户分为4类,从而精确营销。再由推荐系统找到商品相似 的物品群,根据用户的喜好实行精准推荐; 第三部分建模,通过四个指标的综合比较,选择集成学习模型。 前景展望 本项目有明确的业务导向,致力于解决企业目前所面临的客户流失、提高购物 体验等运营和营销问题,能够运用于精准营销和推荐系统构建客户画像等多个领域, 具有较大的商业价值。 可能存在缺陷 1. 基于item的协同过滤中用户对于产品的评分未知。 2. 只有5个月的数据用来训练模型,数据量比较少,模型的预测效果不够精确。

THANK YOU 39