数据挖掘之推荐算法入门 (阿里大数据竞赛参赛经历) 蔡珉星 厦门大学数据库实验室2013级硕士研究生 指导老师:林子雨

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

“ 菸 ” 之非福 Part Ⅰ. 你的想法 ─ Q1 :你覺得他很有個性嗎? Q2 :吸菸會增加個人魅力嗎? Q3 :吸菸會讓人感覺成熟?
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
學會摘要 四年級 ( 內容擷取自劍潭國小陳錦蓮和詹珮怡老師的簡報 ). 2 分享綱要 1 1 什麼是摘要 2 3 如何教摘要 實例與實際操作.
我們可以如何應付氾濫 ? 2c 第三組. 目錄 防洪 (1) 防洪 (2) 湖北坪興建三峽主壩簡介 長江三峽水利樞紐工程 三峽工程的利益 (Part1) 三峽工程的利益 (Part2) 三峽工程的弊 (Part1) 三峽工程的弊 (Part2) 總結 組員名單 完.
1 寫作測驗武功秘笈 洪德惠老師 99 年 1 月 18 日. 2 PART1 理論部分 3 寫作測驗的基本能力 1. 能掌握寫作步驟,充實作品內容,精確表達自 己的思想。 2. 能依收集材料立意、選材、安排段落及組織等 步驟行文。 3. 能運用觀察的方法觀察周遭事物,並能寫下重 點。 4. 能適切地遣詞造句,使用正確的標點符號,完.
無性生殖是由親代直接產生新的個體,並不涉及配子的生成與結合。
梦想启航 ——大学生活与职业规划专题讲座.
備審資料與面試準備 高雄醫學大學醫學系 林郁涵.
河北保定外国语学校 高三家长会.
千秋大业在担当 《中国共产党问责条例》解读提纲.
以信息化带动教育现代化,打造教育的“南山质量”
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
第四讲 1949—1991年的中苏关系 及其经验教训.
大型探索节目《谜》之 感恩.
自然的食物就是你最好的醫生 上課之前先聽一首歌~稻香 歌詞、音樂還不錯和大家分享一下
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
一、平面点集 定义: x、y ---自变量,u ---因变量. 点集 E ---定义域, --- 值域.
第四章 圓錐曲線 ‧4-1 拋物線 ‧4-2 橢 圓 ‧4-3 雙曲線 總目錄.
工職數學 第三冊 第二章 不等式與線性規劃 ‧2-1 一元二次不等式 ‧2-2 絕對值不等式 ‧2-3 二元一次不等式的圖形
校园信息管理系统 河北科技大学网络中心 2000/4/10.
怎樣吃才健康? 賴亭竹.
貿易自由化的農業調整策略 行政院農業委員會主任委員 陳保基 102年11月13日.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
胫腓骨骨折.
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
外科护理学 沧州医学高等专科学校.
生命停看聽—生命圖書館 萬中選一的祝福 推薦人:彰師附工進修學校 蘇郁惠.
第二单元(6-9课) 近代化的探索.
与领导、下级、同事的 沟通技巧.
回顾与展望:高州经验与广东医改 省卫生计生委、省医改办 黄 飞 2015年7月3日.
新帝國主義開港 (一)臺灣成為侵略者目標 1.背景: A.買賣利豐=鴉片進口+米、糖、樟腦、煤炭出口 B.地理位置優越=航行安全+商貿中心 2.新帝國主義: A.19C中:英、法、美、日為主 B.臺被迫開港通商,割地賠款,簽訂不平等條約.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
佳力科技 防爆叉车的应用、发展 浙江佳力科技股份有限公司.
愛心月課程活動 設計者:洪雪玲老師.
《乡村教师支持计划 年》 解读.
管理学基本知识.
1-3 探究自然的科學方法.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
滁州学院首届微课程教学设计竞赛 课程名称:高等数学 主讲人:胡贝贝 数学与金融学院.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
烟花爆竹企业开复工 安 全 培 训参考课件 浏 阳 市 安 监 局.
姓名:梁晓莹 职务:安徽省旅游局安全办主任(高级经济师) 中国旅游研究院(华侨大学)旅游安全研究基地行业顾问 经历: 自1987年就职于安徽省旅游局 自2009年主持安全办工作 曾主编《旅游安全宣传手册——暨安徽旅游安全格言警句精选》、《安徽旅游安全》、《安徽旅游发展大事记》等 承办过“安徽省旅游安全演讲征文大赛”及“旅游安全调研成果奖”评选等工作.
常规免疫接种率 监测 免疫规划科 章梦然.
入托、入学儿童预防接种证查验 武平县疾病预防控制中心 林传贵
本活動 想解決的問題是……. 本活動 想解決的問題是…… 130最少要加上多少才能被8整除? 130最少要減去多少才能被8整除? 《除法定理》 被乘數=乘數 x 商 + 餘數.
雞蛋這樣孵出小雞的 動物的生殖 Part I.
拾貳、 教育行政 一、教育行政的意義 教育行政,可視為國家對教育事務的管理 ,以增進教育效果。 教育行政,乃是一利用有限資源在教育參
词类活用.
92-90數學課程綱要比較 -- 不含數與計算 台北市立師範學院 數學資訊教育系副教授 李源順.
課程銜接 九年一貫暫行綱要( )  九年一貫課程綱要( ) 國立台南大學數學教育系 謝 堅.
2.4 二元一次方程组的应用(1).
第四节、破坏金融管理秩序罪(之一) §170.伪造(货币)
領島圖書館.
航 天 科 技專 題 比 賽 中國航天的發展過程.
學習講座—數學科.
2017 iOS风通用PPT模板 主讲人:宝藏PPT.
微信商城系统操作说明 色卡会智能门店.
九年级 上册 22.3 实际问题与二次函数 (第1课时).
公务卡日常管理篇 办卡激活/遗失补办/ 停用销卡/额度调整 财务处 2016年.
——向刑事案件被告人家属调查取证的伦理性讨论
直线系应用.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
下列哪些是不等式 的解? 10, 9 , , –1,  全部皆是 你認為不等式 有多少個解? 5 個 無限多個
用加減消去法解一元二次聯立方程式 台北縣立中山國中 第二團隊.
Presentation transcript:

数据挖掘之推荐算法入门 (阿里大数据竞赛参赛经历) 蔡珉星 厦门大学数据库实验室2013级硕士研究生 指导老师:林子雨 http://dblab.xmu.edu.cn 2014年11月1日

目录 遇到的问题 什么是推荐系统 阿里巴巴大数据竞赛 推荐算法入门

什么是推荐系统 Part 1

什么是推荐系统 帮助用户从大量信息中找到自己感兴趣的信息。 比如你今天想下载一部电影看看,但当你打开某个下载网站,面对100年来发行的数不胜数的电影,你会手足无措,不知道该看哪一部。 推荐系统可以根据你以往的观影记录,为你推荐相关的电影。 推荐可以两方面入手: 基于内容的推荐 -> 相关导演、演员的其他作品; 基于协同过滤的推荐 -> 找到与自己历史兴趣相同的用户群,推荐该用户群喜欢的电影。

推荐构成:导演、演员其他作品;同类型电影。 什么是推荐系统 电影应用(豆瓣电影): 《盗梦空间》 的推荐 推荐构成:导演、演员其他作品;同类型电影。

推荐构成:喜欢的歌曲所属专辑的其他曲目;风格类似的曲目。 什么是推荐系统 音乐应用(虾米音乐): 推荐构成:喜欢的歌曲所属专辑的其他曲目;风格类似的曲目。

什么是推荐系统 电商应用(京东商城): 《推荐系统实践》的推荐 推荐构成:协同过滤、属性类似的商品。

什么是推荐系统 推荐系统的本质 通过一定的方式将用户与物品联系起来。

阿里巴巴大数据竞赛 Part 2

阿里巴巴大数据竞赛 7000+参赛队伍,凸显了如今大数据方向的热门

阿里巴巴大数据竞赛 赛题介绍 在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。 数据: 行为日志:用户id、品牌id、用户对品牌的行为、行为时间。 用户行为:点击、购买、加入购物车、收藏。

阿里巴巴大数据竞赛 比赛形式 评估指标 设计一个推荐算法,基于算法和已有数据得出第五个月用户可能购买的品牌。 训练集:用于建立模型; 验证集:用于评估模型。 例如可以用 1-2月 的数据作为训练集,3月的数据作为验证集,以此来检验算法的效果。然后再用 3-4月 的数据作为训练集,得出推荐结果。最终提交推荐结果,由系统给出分数。 评估指标 预测的品牌准确率越高越好,也希望覆盖的用户和品牌越多越好。

阿里巴巴大数据竞赛 参赛成绩:第60名 比赛时间较长,持续4个月,比较耗时间。后劲不足,没有达到预期的成绩。 通过竞赛,对推荐算法的入门有了深入的理解与实践。

推荐算法入门 Part 3

推荐算法 阿里大数据竞赛提供的数据: 对数据的处理:提取特征 特征:推荐算法所考虑的因素,如 用户过去一个月对品牌的点击次数 行为日志:用户id、品牌id、用户对品牌的行为、行为时间。 用户行为:点击、购买、加入购物车、收藏。 对数据的处理:提取特征 特征:推荐算法所考虑的因素,如 用户过去一个月对品牌的点击次数 用户过去一个月对品牌的购买次数 品牌过去一个月的总销量 ...... 原始数据 处理后的特征数据

推荐算法 算法1:简单的推测"规律" 点击次数多,购买可能性较大; 加入购物车、收藏,购买可能性较大; 最近有浏览过的品牌,购买可能性较大; ......

点击次数与是否购买的关系

简单粗暴且有效,只要规律找的好,效果还是可以的 推荐算法 算法1:简单的推测"规律" 首先将数据转化为特征值: 点击次数 click 加入购物车 is_cart 收藏 is_fav 几天前有浏览过 days 实现1:直接利用规律 if ( this.days <=2 && this.click >= 10) then recommend(this); if ( this.is_cart && days <= 3 ) then recommend(this); .... 简单粗暴且有效,只要规律找的好,效果还是可以的

推荐算法 √ 算法1:简单的推测"规律" 实现2:设定权值,并计算分值(通过验证集找到较优权值) 点击次数 click 加入购物车 is_cart 收藏 is_fav 几天前有浏览过 days 实现2:设定权值,并计算分值(通过验证集找到较优权值) W = w1 * click + w2 * is_cart + w3 * is_fav + w4 * 1/days 例如得到一个较有权值: w1 = 0.1, w2 = 0.2, w3 = 0.2, w4 = 0.5 用户 品牌 交互数据 得分 1 133 click = 2, is_cart = 1, is_fav = 0, days = 1 1.4 2 click = 10, is_cart = 0, is_fav = 0, days = 5 1.1 √ 简单有效,实现方便,有一定效果

推荐算法 算法2:逻辑回归(Logistic regression) 公式定义 将可能性限定在0和1之间

推荐算法 算法2:逻辑回归(Logistic regression) 组成1:回归 回归是对已知公式的未知参数进行估计。 如已知公式是y = a*x + b,未知参数是 a 和 b。我们现在有很多真实的(x,y)数据(训练样本),回归就是利用这些数据对 a 和 b 的取值去自动估计。

推荐算法 算法2:逻辑回归(Logistic regression) 组成2:线性回归 如鞋子定价与鞋子销量的问题。y = a*x + b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。 线性回归示例

推荐算法 算法2:逻辑回归(Logistic regression) 组成2:线性回归 如鞋子定价与鞋子销量的问题。y = a*x + b,x是价钱,y是销售量。假设它们满足线性关系,线性回归即根据往年数据找出最佳的a, b取值,使 y = a * x + b 在所有样本集上误差最小。 一元变量关系比较直观,但若是多元就难以直观的看出来了。比如说除了鞋子的价格外,鞋子的质量,广告的投入,店铺所在街区的人流量都会影响销量,我们想得到这样的公式:sell = a*x + b*y + c*z + d*γ + e。这个时候画图就画不出来了,规律也十分难找,这时就得交给线性回归程序去完成。

推荐算法 算法2:逻辑回归(Logistic regression) 组成3:Logsitic方程 上面提到的 sell 计算出来是一个数值,但我们需要的是一个[0, 1],类似概率的值,于是引入了 Logistic 方程,来做归一化。 所以逻辑回归就是一个被Logistic方程归一化后的线性回归。 线性回归 逻辑回归

推荐算法 算法2:逻辑回归(Logistic regression) 实现:使用算法库 R语言、Python等都有逻辑回归的算法库,使用方便。最重要的还是要提取相关特征,逻辑回归的效果直接取决于特征的选取(当然,追求更好的效果就需要去优化算法的实现)。

逻辑回归代码示例

推荐算法 算法3:协同过滤(Collaborative Filtering) 基于用户的协同过滤算法是推荐系统中最古老的算法。可以不夸张地说,这个算法的诞生标志了推荐系统的诞生。 在个性化推荐系统中,当用户A需要个性化推荐时,可以先找到和他有相似兴趣的其他用户,然后把那些相似兴趣用户喜欢的、而用户A没有听说过的物品推荐给A。这种方法称为基于用户的协同过滤算法。 基于用户的协同过滤算法主要包括两个步骤。 找到和目标用户兴趣相似的用户集合。 将这个集合中用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。 相对应的,还有基于物品的协同过滤算法,比如给喜欢《射雕英雄传》的用户推荐《天龙八部》,因为这两部作品都是武侠小说,且作者都是金庸。

推荐算法 算法3:协同过滤(Collaborative Filtering) 协同过滤算法的核心是计算相似度,以基于物品的协同过滤为例: 左边每一行代表一个用户感兴趣的物品集合 中间是某用户感兴趣物品的相似矩阵 右侧是所有用户感兴趣物品相似矩阵相加的结果 最后进行归一化就可得到一个[0,1]的物品相似度矩阵

推荐算法 算法3:协同过滤(Collaborative Filtering) 基于用户的协同过滤(User CF) (用户A和用户C都喜欢物品A、C) 基于物品的协同过滤(Item CF) (喜欢物品A的人也喜欢物品C)

基于物品的协同过滤推荐示例 给用户推荐《算法导论》,是因为这本书和《C++ Primer中文版》和《编程之美》都相似,相似度分别为 0.4 和 0.5。 而用户对《C++ Primer中文版》的兴趣度是1.3,对《编程之美》的兴趣度是0.9,那么用户对《算法导论》的兴趣度就是1.3 ×0.4 + 0.9×0.5 = 0.97。

推荐算法 逻辑回归与协同过滤的比较 最主要的一个区别是应用场景不同:逻辑回归针对的是已有交互的物品,而协同过滤则主要针对没有交互过的物品。 如购物网站的推荐系统, 逻辑回归可以推荐给用户,其浏览过且较有可能购买的商品; 协同过滤则可以推荐给用户,其未浏览过但可能感兴趣的商品。 亚马逊的图书推荐主要使用了协同过滤。

推荐算法 其他推荐算法: 随机森林(Logistic regression) 支持向量机SVM 神经网络 Slope One ......

推荐算法 总结: 介绍了阿里巴巴大数据竞赛的基本情况; 介绍了两类比较典型的推荐算法:逻辑回归和协同过滤; 推荐算法的选择和具体应用场景有很大关系,一般也涉及多种推荐算法的组合使用。 推荐算法涉及较多的数学知识,今天只是做了一个简单的介绍,可深入了解的东西还有很多。

遇到的问题 Thanks. 34