工作总结 6.25
Netflix Pirze 介绍 背景 规则 目前参赛组最好成绩
背景 租赁商Netflix,2006年10月2日发起一项竞赛 。 任何组织或个人提交比Cinematch效果好10%的新方法就可以获得100万美元。 NetflixPrize还提供每年5万美元的年度进步奖。 趋势:从商业性质变成研究性质,很多研究机构参与这项竞赛,如08年年度进步奖:BellKor in BigChaos 是属于AT&T research
规则 从训练集合:超过48 万(480 thousand)随机用户对1.8万(18 thousand movie)部电影的超过1亿次评分(100 million ratings),评分等级从1-5星,训练出有效算法 对公布的测试集合:280万条(2.8 million)用户/电影id 评分的数据对(等级评分没有公布)进行预测评分 预测结果集提交给竞赛网站,网站根据RMSE(均方跟误差)对预测结果精度进行评测
规则 目前参赛组最好成绩(184个国家40340个参赛队) 官方算法Cinematch:RMSE = 0.9514 (quiz subset) 提高10%:RMSE=0.9514-0.09514=0.8563 目前参赛组最好成绩(184个国家40340个参赛队)
推荐系统算法简介 商业性推荐(电子商务,电影,音乐,书籍) 新闻推荐(手机报,百度个性化新闻)
商业性推荐(电影,书籍,商品) 基于内容的推荐 根据用户选择的对象,推荐其他类似的对象: 特点:不需要依据用户对象的评价意见,系统基于用户评价对象的特征来学习用户兴趣。 对象特征(Contents(s))选取:主要以文字描述为主,如文本特征:词频-倒排文档频率:TF-IDF 用户模型(ContentBasedProfile(c)):机器学习方法,如决策树,贝叶斯分类,基于向量的表示方法 效应函数:u(c,s)=score(ContentBasedProfile(c),Contents(s))
商业性质网站(电影,书籍,商品) 协作性过滤推荐 组合推荐方法和基于知识本体 思想:找到与当前用户相似的用户 特点:推荐的自动性,广泛适应性(对推荐对象没有特殊要求),需要大量的用户访问历史数据 启发式方法 使用与新用户C相似的用户 对一个对象S的评价来预测S对新用户C的效应:计算用户间相似度,对所有与C相似的用户 对对象S的评分进行聚合分析技术 基于模型方法 将用户归类到一种模型下或者类型中,采用模型 有聚类,贝叶斯模型,机器学习 组合推荐方法和基于知识本体
新闻推荐 用户模型表示(特征表示) 推荐方法 加权主题表示法 用户书签表示法 关键词列表表示法 本体论表示法 用户浏览模式和访问模式 基于内容过滤的web推荐方法 基于规则 协作性过滤
语音推送系统做新闻推荐的相关想法 对象特征提取 用户模型 冷启动问题 热点推荐 (1)停留时间 (2)加权主题 (1)基于主题的推荐算法 (2)基于主题的协作性推荐算法 (3)基于块的协作性过滤算法 冷启动问题 热点推荐
下一步工作 继续研究新闻推荐相关的论文和算法 查找相关新闻语聊并搭建系统 论文修改