广点通的数据挖掘 2013-07@ADC shawnxiao@tencent.com.

Slides:



Advertisements
Similar presentations
營養午餐 嘉大附小四年二班. 形容詞豐富 鍋燒烏龍麵裡有很多料,有細細長長的麵、翠 綠的青菜、像雨傘的香菇、紅紅的蘿蔔和像圓 月的丸子。每次去盛鍋燒烏龍麵時,我都會聞 到香噴噴的味道,讓我好餓,似乎可以吃下一 頭牛。吃下第一口時,有彈牙的麵、鮮甜的青 菜、 QQ 的香菇、軟軟的丸子,還有脆脆的紅 蘿蔔。每當我吃完第一碗,就還想吃第二碗,
Advertisements

四、后期物理复习备考建议 不同阶段复习课教学设计(知识建构)的目的 复习课教学 设计的目的 理 解 · 对某知识的全面、抽 象理解 · 抽象知识和具体情景 的转化 综 合 · 多知识点联合解决问 题 基本素质 · 审题、表达、审视答 案等基本能力 复习 ( 一 ) 复习(二) ☆ ☆☆☆ ☆☆  进行科学规划.
美 丽的轴对称图形 教学内容 教学目标 教学重点、难点 教法、学法 教学过程 教材从具体到抽象,从感性到理性,从实 践到理论,再用实践检验理论,层次分明,循序 渐进的指导学生认识自然界和日常生活中具有轴 对称性质的事物,使学生进一步认识前面所学的 平面图形的本质特征。 教 学 内 容教 学 内.
组长:倪运超 小组成员:徐悦、曹吕卿、孙浩、徐圣尧.  上海的历史 上海的历史  上海的历史 上海的历史  上海的文化 —— 建筑 上海的文化 —— 建筑  上海的文化 —— 美食 上海的文化 —— 美食  香港的历史 香港的历史  香港的历史 香港的历史  香港的文化 —— 建筑 香港的文化.
第一章 餐饮服务程序 学习目的: 掌握餐饮服务四个基本环节的内容 正确表述和运用各种餐饮形式的服务程序 熟悉并利用所学知识灵活机动地为不同需求的 客人提供服务.
一、 突出解析几何复习中的重点问题的通法通解 解析几何中的重点问题 一、 突出解析几何复习中的重点问题的通法通解 直线与圆锥曲线的位置关系 重点一.
通用航空供应链融资. 凯塔公司介绍 2010 年 中国航空运输协会发起 凯塔 ( 北京 ) 信息技术有限公司成立 2011 年 沈阳凯塔数据科技有限公司成立 凯塔系统的运营基地.
概率.
第四章:长期股权投资 长期股权投资效果 1、控制:50%以上 有权决定对方财务和经营.
關於「中華民國國民健保卡」 (健保 IC 卡內容)
600年前,鄭和率領世界上最強大的艦隊,浩浩蕩蕩的駛入印度洋,展開一場「文化帝國」的海上大秀。
第十三章 中国的传统科学技术 中国古代的科技曾经长期处于世界领先地位,对人类文明的进步作出过重要贡献,并形成了富有特色的科技文化。在今天,源自中国古代科技文化的中医学仍然在现实生活中发挥着积极的作用。
软件测试 第3章 黑盒测试及其用例的设计.
平阴县科技创新券情况介绍 平阴县科学技术局 2016年7月.
2015高考试题分析 及高三第一轮复习心得 ----余江一中物理组
时间与我们的世界 Pb 段心蕊.
零售企业入网流程说明 中信二十一世纪(中国)科技有限公司.
共通能力科研習計劃書 簡 報 篇.
企业涉税业务基本知识宣传 郑州航空港区国家税务局机场税务分局 王 磊.
第四章 账户及复式记账的应用 教学目的与要求:本章内容属于会计实务部分。通过本章的教学,使学生掌握制造企业经济业务的核算内容及账务处理,进一步加深对复式记账原理的理解,熟练掌握借贷记账法在制造企业的实际应用。 教学重点:运用借贷记账法对制造企业的经济业务进行账务处理。 教学难点:利润的核算;期末各账户之间的相互结转。
关于“人肉搜索”的滥用及其所引发的 “网络暴力”的道德与法律思考
彰显语文教育特性 立意学生能力发展 ——《语文》新教材第三册解析
《山西省2008年初中数学学业考试说明》解读及复习建议
第三讲 行政许可的具体分类(一 ).
责任 感恩 安全 开学第一课 广西柳州市柳东新区雒容镇盘古小学王秀娅 QQ:
校园信息管理系统 河北科技大学网络中心 2000/4/10.
物理3-5选修模块.
第一章 运动的描述  .
一寸光阴一寸金 寸金难买寸光阴 时间.
99年成語200題庫(21-40).
全区中小学电子学籍应用视频培训 一、我区中小学生电子学籍信息系统建设使用情况
雄伟的金字塔.
石家庄迅步网络科技有限公司 联系人:张会耀 电话:
第35届北京青少年科技创新大赛 网上申报 北京青少年科技中心 2014年12月8日 李佳熹.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
黄老五 花生酥 营销策划书 请在此页填写作品信息(此页非设计模板) 小组成员:齐伟豪 葛英鹏 崔羽魁.
杭州xx房地产微信营销策划方案 序言 引言 国内微信房地产平台分析 微信房地产平台应用前景 微信公众平台介绍 我们的方案 合作案例.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
总 复 习 班 级:测控技术与仪器2011-1、2班 授 课:滕召胜.
让我们快快乐乐.
2016年赶集产品介绍.
2008年高考趋向与高考英语复习方法暨备考导航.
第五章 电流和电路 制作人 魏海军
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
课程改革的文化自觉之旅: ——校长的课程文化自觉与学校发展 刘启迪 人民教育出版社主任编辑 《课程·教材·教法》编辑部
第四章 时间序列的分析 本章教学目的:①了解从数量方面研究社会经济现象发展变化过程和发展趋势是统计分析的一种重要方法;②掌握时间数列编制的基本要求;③理解和掌握水平速度两方面指标的计算及运用④理解和掌握长期趋势分析和预测的方法。 本章教学重点:现象发展的水平指标和速度指标。 本章教学难点:现象变动的趋势分析。
机器学习在互联网广告中的应用 庄宝童.
媒体融合式转型 社会和文化教研部 高级经济师 郭全中
温故知新 1、凸透镜成像的规律有哪些? 2、照相机成像的原理是什么?.
开 学 第 一 课 六年级3班.
一、公司简介 二、网上办税平台简介 三、发票发放操作指南 四、金税盘操作指南 五、售后服务联系方式.
校园媒体推介手册 中国地质大学宿舍框架媒体篇 校园专业媒体运营商.
狂賀!妝品系同學美容乙級通過 妝品系三甲 學號 姓名 AB 陳柔諺 AB 陳思妤 AB 張蔡婷安
如何寫工程計畫書 臺北市童軍會考驗委員會 高級考驗營 版.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
大数据与物流 沈庆琼 物流教研室.
当当AD竞价广告培训 广告部:谢智.
规范教学,提升质量,迎接评估 ——学校教学管理制度解读
项目三 百度平台营销:SEM(搜索引擎营销)
排列组合 1. 两个基本原理 分类加法计数原理 分步乘法计数原理.
青眼究極龍 之 賓果連線 簡豪天、宋華敏製作.
香港傳統的農村生活.
第三节 常见天气系统.
GSP認證評核 注 意 事 項 主辦單位: 執行單位: 金牌服務.國家認證.
微信商城系统操作说明 色卡会智能门店.
薪資管理系統 學號: 姓名:侯明谷.
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
全国食药监检验检测机构 信息直报系统 test.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
Presentation transcript:

广点通的数据挖掘 2013-07@ADC shawnxiao@tencent.com

目录 产品 简介 问题 分析 解决 之道 系统演进 在线模型 特征设计 两大 平台 5大部分: 1、简单介绍,演示一下广点通是一个什么样子的产品。 2、碰到的一些问题做一些分析 3、介绍一下我们的应对,做法 4、做法中用到了哪些数据 5、下一步的方向

产品简介 官网 http://e.qq.com/ 广点通是一个可提供给广告商多种广告投放平台的效果广告系统。

产品简介 广告位 展现形式 投放策略 计费方式 Qzone空间 朋友网 QQ PC端 QQ音乐 手机Qzone 图片 CPC GSP 文字 CPM GSP 面向中小企业广告主的效果广告系统,精准投放是核心竞争力。 调出 Qzone, 客户端的广告位场景演示。 CPC 用户点击一次,收费,否则,不收费 GSP 是什么?---第二名计费,pctr2*cpc2/p 广义二价拍卖(Generalized Second-Price Auction) 重点交待:高并发低延迟的效果广告系统是一堆负责的系统构成,这里重点分享在广告点击率预测,数据挖掘方面的经验。

目录 产品 简介 问题 分析 解决 之道 系统演进 在线模型 特征设计 两大 平台 5大部分: 1、简单介绍,演示一下广点通是一个什么样子的产品。 2、碰到的一些问题做一些分析 3、介绍一下我们的应对,做法 4、做法中用到了哪些数据 5、下一步的方向

挑战 – 广告位 上下文较少 广告位众多 没有明显的意图带入 没有固定的页面内容 网页 客户端 手机 等 和搜索广告的区别,也不会有搜索引擎的refer带入。 区别与内容广告,有比较明确的页面内容。 用户到Qzone,更多只是逛一下,做一些好友互动等活动。 图片规格多,适应页面UI,主要是照顾用户体验。

挑战 – 用户 点击数据非常稀疏 曝光数据偏态(以某个广告位为例) 大部分用户,一个月内都没有点击 平均1000次曝光,点击 1~8 40%的用户,一天内,曝光 = 1 80%的用户,一天内,曝光 < 3

挑战 – 广告 素材内容对点击影响很大 8X 0.20% 1.70% 相比广告位,用户带来的问题;广告侧带来的挑战也比较多。 2. 0.20% 1.70%

挑战 – 广告 新广告的冷启动 每天新增几十万新广告 没有用户反馈信息 类目不均衡 从广告的生命周期来看问题。

挑战 – 系统 用户体验,<50ms 数据的偏差 用户误点击 恶意点击等 海量数据建模、预测

目录 产品 简介 问题 分析 解决 之道 系统演进 在线模型 特征设计 两大 平台 5大部分: 1、简单介绍,演示一下广点通是一个什么样子的产品。 2、碰到的一些问题做一些分析 3、介绍一下我们的应对,做法 4、做法中用到了哪些数据 5、下一步的方向

系统演进 1、不会直接讲现在怎么做的,而是会分享从雏形到目前做法的进化历程。

实时 查询 场景 广告位少 广告少 线下全量预测,线上查询 HADOOP ,RDT:可解释,少迭代,训练&预测都很快 预测结果存储量巨大 8亿用户*TOP100个订单*广告位 = 1.6T * #广告位 互联网的特点,短平快,快速上线。 能够使用到的成熟的技术平台:hadoop 0.8G*100*(8+8+4)=1.6T

1、RDT

2、快速聚类 Simhash,保留输入数据的相似性,hash之后仍然是相似的。所有预测广告得到一个指纹。如何对相似性做一个聚类的问题? Minhash 通过对多次hash结果的最小值相等概率判断,得到jaccard的相关值。很方便并行,减少了传统k-means这样算法的迭代,可以快速完成。得到群体后,再计算其中心点作为其推荐列表。 8亿用户的广告预测计算,大约只需要1个小时完成。 成果:8亿用户映射 -> 到几百万规模

实时查询 全量预测 排序 快速聚类 N*AD N*<AD,weight> M*<AD,weight> AD QQID:类ID 类ID:M*<AD,weight> 注:M<<N 16

更好的方案? 极大浪费计算资源,90%的用户不会到来 新广告不在候选集,无法预测 实时性不好,策略不够灵活 扩展性受限 注意承上启下,抛出问题:现在的方案解决了存储了问题,但是还存在很多其他问题。 8亿用户,每天过来的到的用户只有1亿用户 离线预测,新广告没有在计算列表里面。 扩展性有限: 广告从几百到几十万,更多 广告位从几个到几百,更多

实时计算 线下训练模型;线上实时预测 新广告线上直接预测 动态SO的技术,更加灵活的实验 数据染色,便于后续分析 算法 + 领域知识 相结合 1、不来的用户,不用预测; 2、广告在前端经过业务逻辑过滤,不在候选集里面的,也不用预测。 数据染色,对策略埋下标记,线下统计分析 逻辑更加灵活,

主要问题 用户响应时间 < 50ms 输入: “树”类的算法的不足 线上一次请求,100个广告的实时预测计算 需要查询用户,广告等多种特征800+次 “树”类的算法的不足 输出规则,串行计算 树的层数和规模限制 预测模块,需要简单的计算逻辑。所以选择LR 另外,用户存在行为上的差异,有些用户有实时行为,但有些没有。

Regularized logistic regression min w 𝑓(𝑤)=𝐿 𝑤 +𝜆 𝑤 𝐿1 Regularized LR 的问题定义,大家应该比较熟悉。 L1,L2通过实验去选择。

融入用户行为的混合模型

实时计算 Scoring 过滤 pCTR 排序 reRanking 策略 N*AD M*<AD,weight> 注:M<<N 22

实时计算 – 不足 Model离线training 数据分布变化很快 模型还是离线build,线上的变化不能很快得到反映。比如说,有个新广告的效果突升或者突降。。。 广告生命周期很短,竞价对广告效果的影响等因素。

Online Model 15分钟更新 天更新 线下的模型只是一天(or更长)更新一次。 线下全量模型,定期训练+线上增量模型

目录 产品 简介 问题 分析 解决 之道 系统演进 在线模型 特征设计 两大 平台 5大部分: 1、简单介绍,演示一下广点通是一个什么样子的产品。 2、碰到的一些问题做一些分析 3、介绍一下我们的应对,做法 4、做法中用到了哪些数据 5、下一步的方向

数据才是“大米” 巧妇难为无米之炊

定制化用户画像 用户 基础属性 行为属性 细分人群 人口属性 兴趣属性 自定义标签 年龄 千余种兴趣类目 单身人群 百万级独立标签 苹果 索尼 安踏 宝马 … 性别 新婚人群 女装 女饰品 女鞋 男装 IT产品 … 地域 母婴人群 学历 … 上网场景 …

图片feature 爬取广告素材的图片 计算图片的色彩特征 亮度 饱和度 色彩度 对比度 尖锐度等

哪个图片点击率最高? 示例: 中间图片点击率最高 图片亮度在8左右点击率最高 亮度标准差=3 亮度标准差=8 亮度标准差=16

亮度(Brightness)-标准差,density图 亮度标准差在[6,10]更倾向于点击 图片亮度在8左右点击率最高

图像相似度 计算方法 输出 好处 对每个图片的gist特征512维的 float & dense 向量直接计算其simhash值 ADid -> img_group_id 好处 快 不需要指定聚类中心个数 SimHash值越接近的图片越相似 Simhash :64 Bit 的 Murmur Hash

图像相似度-example 聚类id: 1711127890547892055 包含3106 个这样的类似广告素材 对于同一人群,相似图片CTR接近 广告ID click impression CTR 8509989 88 55,560 0.16% 8509980 116 62,091 0.19% 8509912 166 93,099 0.18%

目录 产品 简介 问题 分析 解决 之道 系统演进 在线模型 特征设计 两大 平台 5大部分: 1、简单介绍,演示一下广点通是一个什么样子的产品。 2、碰到的一些问题做一些分析 3、介绍一下我们的应对,做法 4、做法中用到了哪些数据 5、下一步的方向

核心平台之一:腾讯分布式数据仓库(TDW) 基于开源hadoop和hive进行大量优化和改造 单集群4400台(业界顶级规模),存储容量100PB 月活跃用户(数据提取分析)2800人,覆盖7大BG88个部门 查询引擎 Lhotse 任务统一调度 IDE 集成开发 计算引擎 MapReduce 存储引擎 HDFS HADOOP 数据采集 TDBANK Hive 关键技术 Hadoop Master(NN/JT)节点实现并行扩展,支持灾难时自动热切 Hive&Pig功能丰富,支持传统数据库的标准语法,提供可视化集成开发环境 TDBank准实时数据采集,支持5分钟及时数据分析 Lhotse一站式任务管理,每天支撑10万级任务调度,可平行扩展

核心平台之二:实时推荐平台(APOLLO) 泛平台支撑,满足腾讯各类个性化推荐需求 海量数据在线处理,日推荐请求300亿,流式计算30000亿 算法精准,平台高效,毫秒级响应 关键技术 多种算法模型灵活适配,LR、RDT、SVD等 简单高效的扩展能力,数据动态伸缩,上层无感知 多副本数据容灾,服务可用度99.995%以上 多级缓存技术,有效解决分布式计算的数据CoLocation问题 数据接入量:50亿/天 实时计算量:1000亿/天 数据访问量:800亿/天 数据存储量:2T/天 提升推荐效果:30%

个人感悟 1、数据为王,垃圾进垃圾出 2、用户行为最有效 3、简单实时方法好过复杂离线 4、线下的模型指标只是参考,一定要做在线的AB TEST 5、AB TEST前先做AA TEST 6、在BADCASE中不断提升

THANKS