A Personalized Recommendation System for Netease Dating Site

Slides:



Advertisements
Similar presentations
PROJECT NAME 项目名称 上海xx文化传播有限公司.
Advertisements

LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
2017/3/6 V1 实习指导管理系统.
2017/3/6 V1 实习指导管理系统.
随身携带的图书馆 ——移动图书馆服务介绍 主讲人:陈洋阳.
经济成长和差距平等化 东京学艺大学 铃木亘.
绩效考评表格设计 班级:15服务4班 姓名:杨冬茜.
第11章 大数据在互联网领域的应用 (PPT版本号:2016年1月29日版本)
Excel VBA视频教程 课程介绍-什么是VBA
深化“量 服” 康 复 服务 共建小康和谐社会 广元市残疾人联合会 姜 雷 2015年7月.
Tsing UNIS Education Institution Introduction
UI(用户界面)集训班 Illustrator 高级班.
青岛市大学生职业生涯规划大赛 培训手册-学生 万达信息股份有限公司.
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
第四节、破坏金融管理秩序罪(之一) §170.伪造(货币)
領島圖書館.
基于R和pentaho的全套开源BI平台的实现
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
扁平化精美IT工作实施规划 涛说PPT.
SVN的基本概念 柳峰
R in Enterprise Environment 企业环境中的R
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
Visual Studio Team System 简介
研发内部系统 Pdc简要说明 2013年7月.
基于相似用户群体 图书推荐系统 Book recommendation system ——农E创客.
2019/1/12 GDP设计协同 超级管理员操作手册 GDP项目组.
Online job scheduling in Distributed Machine Learning Clusters
化学品清单 类型.
数据挖掘工具性能比较.
数据说明 郝蕊.
WSDM见闻 程龚.
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
第二章 登录UNIX操作系统.
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
毕业论文答辩 答辩学生:宝藏PPT 指导老师:XXX.
简单介绍 用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)
中国XX大学 毕业答辩模板 此模板可用于本科毕业答辩/硕士毕业答辩/学术研究等.
续签协议&修改密码操作手册 GDP项目组 2019/01/30.
模型分类问题 Presented by 刘婷婷 苏琬琳.
VisComposer 2019/4/17.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
用计算器开方.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
201x 公司LOGO LOGO XX公司年终总结 201x/10/18 201x
实体描述呈现方法的研究 实验评估 2019/5/1.
JoVE实验视频期刊用户指南.
数据集的抽取式摘要 程龚, 徐丹云.
PROJECT NAME 项目名称 张三 安徽xx文化传播有限公司.
2019/5/8 第2章 数据分析软件介绍.
Chapter 18 使用GRASP的对象设计示例.
2019/5/10 网络学习空间实务操作.
国家学生体质健康标准数据管理与分析系统使用培训
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
郑 昀 应用开发事业部 神州泰岳 SIP多方会话消息 之实例讲解 郑 昀 应用开发事业部 神州泰岳
基于最大margin的决策树归纳 李 宁.
OpenStack vs CloudStack
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
基于列存储的RDF数据管理 朱敏
Continuous Authentication for Voice Assistants
关于使用问题的解决方法 中山医学院大数据信息系统.
手绘花朵简约PPT模板 工作总结 论文答辩 说课教育
第四章 UNIX文件系统.
第十七讲 密码执行(1).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
毕业论文 答辩模版 The Graduation Thesis Plea of XXX university 答辩人:XXX
入侵检测技术 大连理工大学软件学院 毕玲.
网页版报名流程 Step 4 点击“详情”查阅具体岗位信息,输入身份数据及申请序列码进行最终报名
多个Activity的使用 本讲大纲: 1、使用Bundle在Activity之间交换数据 2、调用另一个Activity并返回结果
Presentation transcript:

A Personalized Recommendation System for Netease Dating Site VLDB-2014 Netease Corp.

目录 文章简介与相关工作 推荐系统概述 推荐系统 – 数据分析模块 推荐系统 – 推荐模块 实验 总结

文章简介 网易花田社区推荐系统。 什么是花田?

相关工作 传统典型推荐算法: Content Based Filtering 通过利用物品特征的描述和用户(历史)兴趣的记录,比如喜爱的物品特点,进行确定最能匹配用户喜爱的物品。 缺陷: 预先处理产品以得到它们的特征,现实中很难; 推荐给某个用户的产品往往和此用户消费过的产品很相似,无法发现用户并不熟悉但具有潜在兴趣的产品。

相关工作 Collaboration Filtering 利用已有用户群过去的行为或意见预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣。 基于用户最近邻推荐:如果两个用户过去对产品有相似的喜好,那么他们对产品仍有类似的喜好; 基于物品最近邻推荐:如果某个用户喜欢某种产品,那么他现在仍喜欢与此产品类似的产品。 缺陷: 冷启动:新用户,新产品; 可扩展性:可能涉及数以百万计的用户对成千上万种产品的评分(e.g., KNN)。 传统CF推荐算法通常需要计算每对用户或产品之间的相似度,然后把这些相似度存放至电脑的主存钟以便高效的产生推荐。当用户或产品的数量较大时,这类算法会被电脑主存大小所限制。

相关工作 Hybrid Filtering 组合CBF和CF。 加权(weighted)组合:独立应用CBF和CF对产品预测评分,然后加权。 混合(mixed)组合:独立应用CBF和CF预测产品列表,然后组合列表。 序贯(sequential)组合:评分较少时使用CBF,评分到一定程度,使用CF。 传统CF推荐算法通常需要计算每对用户或产品之间的相似度,然后把这些相似度存放至电脑的主存钟以便高效的产生推荐。当用户或产品的数量较大时,这类算法会被电脑主存大小所限制。

相关工作 传统推荐算法的缺点: 主要关注热门用户和热门物品; 仅覆盖部分用户,且忽略长尾用户 无法有效解决冷启动问题。 (典型案例Google Adsense) 国外某音乐网站下载量统计 在线音乐流行度

系统概述 本文提出一种基于回归的混合推荐系统。 首先,从海量用户数据中抽取用户基本属性; 然后,通过采用机器学习方法(如决策树和逻辑回归)构建用户偏好模型; 最后,根据用户偏好模型推荐适当的约会对象。 优点: 考虑了用户偏好和用户匹配度; 考虑了用户满意度和系统平衡要素(如新用户高优先权)。

1. 系统前端产生大量的信息:登陆、查看事件、消息发送事件、检索、请求推荐等等。 2. 全局信息:在线用户数、新注册用户数。 3. 基本用户信息:性别、种族、年龄、收入、教育等等。 数据分析模块:计算各种指数。 推荐系统模块:通过机器学习方法推荐约会对象。

数据分析模块 Activity:用户活跃度。 分别代表b的权重和尺度参数。 b动作在d天出现的次数。 d天用户的活跃度。 各种操作的集合: 用户登陆、趋势、消息、评论、表扬等。 W()和N()代表权重函数和归一化函数

数据分析模块 Security :综合用户信息的真实性和用户每天使用系统的状况。 此参数用来描述用户是否真实可信赖。通过 是否上传头像; 头像是否真实; 收入与其工作、职位、教育是否匹配; 被别人屏蔽和举报的情况; 最后综合算的用户可靠度的值(0~1),从而避免恶意用户和低质量用户被推荐,提高真诚用户的推荐力度。计算方法与上面类似。

数据分析模块 Popularity 综合被赞赏数、评论数、被查看次数、消息等信息来表示一个人的流行程度。 利用求Activity中的方法计算。 如果用户高Activity,但是低Popularity,可以被认为是一些欺诈用户或机器人。

数据分析模块 Enthusiasm 用来表示用户对陌生人的主动性,通过历史沟通数据和信息反馈。 所响应用户数 对此用户发起请求数

推荐模块 处理流程: 通过用户偏好检索出基本候选约会对象(Lucene); 抽取候选用户的特征:基本属性特征、匹配度和喜好度等; 利用用户排名模型对候选用户打分; 分数最后还要经过策略模型进行调整。 三个部分: User Matching Model User Preference Model User Rating Prediction Model

Matching model 本模型处理基本的匹配问题。 建立决策树,训练的样本来自于样例用户的基本信息(年龄、收入、 教育等),其标签信息来自于样例用户的反馈(like or dislike)。 训练过程使用的事C4.5算法和GINI系数。

PREFERENCE MODEL 上述模型仅考虑了基本的匹配问题,但是没有考虑到用户的偏好。 本系统会对每一个用户训练处一个偏好模型。 训练的数据来自于历史的用户约会行为。预测的值是用户的反应。 积极响应:发送消息、点击喜欢或加粉; 消极响应:对消息不回复或加入黑名单; 没有反应。 同样采用决策树方法,训练模型进行预测。 如果预测结果是积极的,则会获得更高的推荐分数,反之亦然。

User RATING PREDICTION MODEL 前述的很多维度,如匹配度、喜好度、活跃度、可靠度、流行度、 热度、是否是新注册用户等,通过逻辑回归方法建立用户排名预测 模型。对候选用户进行排名。 在逻辑回归计算过程中,X1,X2,… ,Xn是特征向量,n是维度。 候选用户推荐概率的回归形式如下:

实验 两个指标: 用户覆盖度; 用户满意度。

用户覆盖度 所有用户覆盖度(All User) 新用户覆盖度(New User) 活跃用户覆盖度(Active User)

用户满意度 点击率(Click Ratio) 深度点击率(Deep Click Ratio) 用户活跃度(User Activity)

近期工作

近期工作 推进上海项目的交接工作。 完成小论文的试验和撰写工作。 深入学习实时数据处理与挖掘工作,多读一些前沿论文和工业 界实现案例。 确定毕业论文的选题,并做一些前期的工作。

谢谢