知识准备-倒排索引 文档集 索引 关键思想:将文档初筛变成O(1)的时间复杂度 D0=``谷歌地图之父跳槽Facebook“

Slides:



Advertisements
Similar presentations
我的 x 檔案 張春桂 ( 阿桂 ). 我的基本資料  破蛋日 :2000 年 9 月 7 日  星座 : 處女 血型 : 未知  興趣 : 敬請期待第 6 頁  身高 :160 體重 : 比你重就對了  性別 : ㄜ ~~ 當然是男的摟  我的偶像 : 我自己  如果臂力強得化可以跟我比腕力喔.
Advertisements

等可能性事件的概率(二) 上虞春晖中学数学组欢迎你! 1 本课件制作于 §10.5 等可能事件 的概率 ( 二 )
第十八章 判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.
A A A.
蒙牛的市场定位 — 先创品牌,后占市场 2005 年,湖南电视台举办的超级女生大赛掀起了 一股狂热,而在这场文化运动的背后,超级女生大赛的 幕后导演 —— 蒙牛乳业成为了最大赢家,获得了巨大的 成功。 在宣传上,蒙牛的媒体曝光率可谓空前,长达 8 个 月的持续热捧,使得蒙牛和竞争对手在宣传方面拉开了.
饮食营养与癌症 西南医院营养科 龚茜芬 联系电话: 一、概述 恶性肿瘤即癌症,连续多年以来居我国死亡前 列, 肺癌、肝癌、结直肠癌、乳腺癌、膀胱癌等恶 性肿瘤的发病率和死亡率一直呈明显上升的趋势 ,其中肺癌和乳腺癌上升幅度最大,过去 30 年分 别上升了 46.5% 和.
上海市场首次公开发行股票 网下发行电子化方案 初步询价及累计投标询价 上海证券交易所 上市公司部.
通用航空供应链融资. 凯塔公司介绍 2010 年 中国航空运输协会发起 凯塔 ( 北京 ) 信息技术有限公司成立 2011 年 沈阳凯塔数据科技有限公司成立 凯塔系统的运营基地.
财务管理 利 润 分 配 利 润 分 配 嘉善中专 杨晓燕. 二、利润分配的项目及顺序 第三节 利润分配 一、利润分配的原则 财务管理 >> 第六章 >> 第三节 三、利润分配政策及影响因素.
                                                 伊朗 的今生 与前世 (2)
網路行銷 PART III 網路行銷實務 Chapter 11 網路廣告
科學論文 鰂魚涌街的衛生情況 作者:廖梓芯 學校:北角官立上午小學 班級:P.5A.
运营管理(Operations Management)
客家文化的內涵與傳播 潘朝陽 臺灣師大國際與僑教學院院長 臺灣師大東亞系、地理系教授 臺灣師大全球客家文化研究中心主任
第八章 顧客溝通—網路行銷組合推廣(promotion)
第一节 两者之间的差异分析 第二节 总体内部的差异分析 第三节 计算器的使用
8 企业信息管理的定量分析 第八讲 企业信息管理的定量分析 8.1 企业信息化水平的测评 8.2 企业信息管理绩效的测评.
─視覺藝術的元素.
第四章 從分裂到統一 第一節 漢唐之際的大變動
第四章 從分裂到統一 第一節 漢唐之際的大變動
第一节 职业生活中的道德与法律 第二节 大学生择业与创业 第三节 树立正确的恋爱婚姻观 第六章 培育职业精神 树立家庭美德.
老子的素朴 厦门大学计算机科学系 庄朝晖.
成才之路 · 语文 人教版 • 中国古代诗歌散文欣赏 路漫漫其修远兮 吾将上下而求索.
舊高等農林學校作業室.
挖掘市场预期分布 建立有效投资策略 权证市场2006年中期投资策略
“淡雅浓香 中国风尚” 山东低度浓香白酒整合传播侧记
世界文化遗产.
證 券 周 邊 事 業 指導教師:楊 雪 蘭 老師 班 級:專 四 技 企 三 甲 學 生:8A070004高玉鳳 8A070012陳詠勝
《成佛之道》序~第三章 圓融 /
主辦單位:朝陽科技大學休閒事業管理學系 協辦單位:體育室、課外活動組 活動日期:民國100年5月21日 活動地點:朝陽科技大學操場
教育部103年紫錐花運動 反毒學習單 國小高年級.
第八章 网络营销广告.
通俗版
安徽地税金三电子税务局 系统培训 2015年12月.
第十章 饮食与营养.
湖北省,简称“鄂”,为中华人民共和国省级行政区。湖北在中国中部、长江中游、洞庭湖以北,介于北纬29°05′至33°20′,东经108°21′至116°07′;北接河南省,东连安徽省,东南和南邻江西、湖南两省,西靠重庆市,西北与陕西省为邻。东西长约740公里,南北宽约470公里,面积18.59万平方公里,占全国总面积的1.95%,居全国第13位。省会是中部地区唯一的副省级城市--武汉市。
现代社会生活中的压力症,是人们身心疾患 发生的根源。在学习企业管理培训课程的时候, 明白了当人们遇上"压力"时,最初的反应便是"
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
「但圣灵降临在你们身上,你们就必得着能力,
大气的受热过程 周南中学.
受众定向标签体系 受众定向即为AUC打标签的过程 标签的两大主要作用 1 上下文标签可以认为是即时受众标签 建立面向广告主的流量售卖体系
拟动力试验 伪动力试验,计算机加载器联机试验 地震发生和传播的随机性 周期性加载的加载历程是假定的,与实际地震的非周期反应有很大差别
俄语字母的发音体系 阅读规则.
了解太平天国运动的主要史实,认识农民起义在民主革命时期的作用与局限性。
第22章 汽车制动系 学习目标 1.掌握制动系的工作原理 2.掌握液压传动装置的结构 3.掌握气压传动装置的结构.
1.企业会计准则--企业合并 一、企业合并的界定、类型及方式 二、同一控制下企业合并的处理 三、非同一控制下企业合并的处理
“e修哥”-- 专注家装维修的APP 服家(上海)网络科技有限公司 2015年1月4日.
机器学习在互联网广告中的应用 庄宝童.
第五章:肾系病证 第三节:癃闭.
健康的生活方式 健康的 生活方式 3.适量运动 1.合理膳食 2.规律作息 4.戒烟、少量饮酒 5.心理平衡 淡泊名利 广交朋友 多做实事
第八章 生物样品内中药制剂化学成分的测定.
單元 1 政府、公民與社會 政治參與.
Exchange Server 2003 系統管理.
品牌广告调度
Word-Entity Duet Representations for Document Ranking
Mezzo Marketing Shanghai
Chp9:参数推断 本节课内容:计算似然的极大值 牛顿法 EM算法.
人(大人)(人口)(人手) 个(个人)(三个)(个子zi ) 手(小手)(双手)(手工) 大(大人)(大山)(大火)
CVR预估 联盟广告算法.
项目三 百度平台营销:SEM(搜索引擎营销)
有效的運用組織資源 Linear Programming (Goal Programming)
第七章 網路廣告.
新媒体环保公益广告现状调查及发展潜力研究
FaceBook 粉絲頁建立 主講人:王金鳳.
序贯监督学习框架下的 耀斑短期预报 哈尔滨工业大学 黄鑫.
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
上帝的 公義&赦免 〈約翰壹書 一章 5/10節〉.
全方位起動通識 戴偉森 沙田循道衛理中學 4/7/2009.
第五章 网络营销 5.1网络营销概述 5.2网络市场调研 5.3 网络营销工具与方法 06:49.
Presentation transcript:

知识准备-倒排索引 文档集 索引 关键思想:将文档初筛变成O(1)的时间复杂度 D0=``谷歌地图之父跳槽Facebook“ D3=``谷歌地图创始人跳槽Facebook与Wave项目取消有关“ D4=``谷歌地图创始人拉斯加盟社交网站Facebook“ 索引 谷歌→{D1, D2, D3, D4, D5} 地图→{D1, D2, D3, D4, D5} 之父→{D1, D2, D4, D5} 跳槽→{D1, D4,}, Facebook→{D1, D2, D3, D4, D5}, 加盟→{D2, D3, D5 }, … 关键思想:将文档初筛变成O(1)的时间复杂度

信息检索-向量空间模型 Bag of words IDF计算方法 文档相似度-余弦距离 关键思想:给出一种非训练的文档排序基线方法 D = (x1, x2, … ,xM) xm一般采用词表中第m个词在D中对应的TFIDF(Term frequency - Inverse Document Frequency)值 IDF计算方法 DF(m ) 为词m在其中出现的文档总数目,N 为总文档数目 IDF (m )=log(N / DF(m )) 文档相似度-余弦距离 cos(D1, D2) = D1T D2 / |D1||D2| 关键思想:给出一种非训练的文档排序基线方法

最优化方法-基本思路 最优化问题: 非约束优化: 问题不连续(自变量或目标函数离散取值) 问题连续但不宜求导 问题连续可导 组合优化(Combinatorial Optimization) 问题连续但不宜求导 下降单纯性法(Downhill Simplex) 问题连续可导 梯度下降法→牛顿法→拟牛顿法→L-BFGS Objective Constraints

最优化方法-拉格朗日方法 原问题(Primary problem) 拉格朗日(Lagrangian) 对偶函数(Dual function) 对偶问题 (Dual problem) 等式约束下的几何意义见右 KKT条件为保证此方法有效 的条件 凸优化情形下满足KKT条件, 但注意一些非凸优化也满足

常用统计模型 指数族分布: 指数族混合分布: Canonical form: 举例: Gaussian, multinomial, maximum entropy 最大似然(Maximum likelihood, ML)估计可以通过充分统计量(sufficient statistics)链接到数据 指数族混合分布: 例: Mixture of Gaussians, Hidden Markov Models, Probabilistic Latent Semantic Analysis (PLSI) ML估计可以通过EM算法迭代得到. 每个迭代中, 我们使用上一个迭代的统计量更新模型. 5 5

统计机器学习-Bayes 贝叶斯公式 几种学习体系

Map/Reduce 统计学习流程 框架流程: 在mapper中仅仅生成比较紧凑的统计量, 其大小正比于模型参数量, 与数据量无关 这样的流程可以抽象出来, 而具体的模型算法只需要关注统计量计算和更新两个函数 7 7

合约广告

广告位售卖和排期系统 供给方:广告排期系统 需求方:代理商 代表: 帮助媒体自动执行多个合同的排期 不提供受众定向,可以将广告素材直接插入页面 需求方:代理商 帮助广告商策划和执行排期 用经验和人工满足广告商质和量的需求 代表: 4A公司

担保式投送 担保式投送(Guaranteed Delivery, GD) 广告投放机(Ad server) 基于合约的广告机制,约定的量未完成需要向广告商补偿 量(Quantity)优先于质(Quality)的销售方式 多采用千次展示付费(Cost per Mille, CPM)方式结算 广告投放机(Ad server) CPM方式必然要求广告投送由服务器端完成决策 受众定向,CTR预测和流量预测是广告投放机的基础 GD合约下,投放机满足各合约的量,并尽可能优化各广告主流量的质

在线分配(Online Allocation)问题 … a=1 a=2 a=3 a=4 a=A … 在线到达的页面和用户 … c1 ,u1 c2 ,u2 Display ad problem 其他问题:Maximally Representative allocation Adwords problem 注意此处为NGD情形

简化匹配模型 假设:节点内部的流量差异可以忽略 需求节点(Demand Nodes, 订单要求的定向标签组合) 供给节点(Supply Nodes, 定向标签的最细组合) 假设:节点内部的流量差异可以忽略

在线随机最差性能研究 (with Free disposal) 原问题: 对偶问题: 对每个a, 初始化对偶变量βa为0 当展示i在线到达时, 将其分配给a’以最大化μia − βa 令xia’ = 1. 如果a’已经得到Ca’次展示, 令i’为使得此值最小的展示, 令xia’ = 0 在对偶问题中, 令zi=μia’ − βa’ , 并按照一定规则更新βa’ , 不同更新规则对应了不同的算法

Exponential Weighting 策略 算法 有效性 Greedy 对每个a, βa是分配给a的前Ca个高权重展示中最低的权重, 也即a接受一个新的展示需要抛弃的权重 1/2 competitive Uniform Weighting 对每个a, βa是分配给a的前Ca个高权重展示的权重的算术平均. 如果分配给a的展示少于Ca个, βa是这些展示总权重与Ca的比. Exponential Weighting 对每个a, βa是分配给a的前Ca个高权重展示的权重的指数加权。即:设μ1 ≤ μ2≤ …≤ μCa,则: 当Ca对每个a 都充分大时为(1 − 1/e) competitive

流量预测指导下的在线分配 目的 HWM(High Water Mark)算法 利于历史数据为在线分配提供指导 在线决策时避免存储xia(compact allocation plan) HWM(High Water Mark)算法 离线计划: 令每个人群维度组合k的剩余supply等于预测量rk = sk 按照分配优先级对每个a,解下式得到其serving rate αa : 对Γ(a)中的每个k, 令rk = rk – min{rk, skαa} 在线分配 对在线到来的某个impression, A = {a1, a2, …, a|A|}为按照分配优先级排序的所有满足要求的广告 按照A中的每个广告的serving rate随机分配其展示机会

核心业务: GD, 无法分配的流量转接到NGD(non-guaranteed delivery, 即Rightmedia exchange)进行变现 GD市场广告主数量为几千,年收入为Billion量级 其他点评: 采用compact allocation plan完成线上决策 提供下列受众定向 地域、人口属性、 行为(较为粗浅,常用的仅有几十个分类) 合约式销售中,品牌广告主对曝光有独占要求

流量预测 可以视为query为a, 对(u,c)进行检索的反向retrieval问题 由于(u,c) 联合空间规模过大,需要对u,c分别处理 c, #impressionc, pc(eCPM) 预测过程: 给定a, 首先通过c的索引找出所有符合条件c的集合 对每个c估计e(a, c),并根据pc(eCPM)得到a在c上胜出的百分比p(a, c), 并将a的流量累加p(a, c)ⅹ #impressionc 上下文页面 该页面流量 该页面eCPM分布

合约广告投送系统

受众定向

中国互联网用户桌面

受众售卖 vs 广告位售卖

定向方法综述 阶段 定向方式 (见DSP部分) 曝光(exposure) 效果 上下文 (2.1, 3.1) 关注(attention) 重定向 (2.2, 2.3, 3.1) 行为 (2.3, 3.1) Look-alike (2.3, 3.1, 4.1, 6.1) 理解(comprehension) Hyper-local (2.3, 4.1) 地域 (2.3, 4.1) 信息接受 (message acceptance) 网站/频道 (2.3, 3.1, 4.2) 人口属性 (2.3, 3.1, 6.1) 保持 (retention) 购买(purchase) 作用阶段 (见DSP部分)

上下文定向(Contextual targeting) 举例 频道/URL定向,操作系统定向 按关键词、主题、分类等进行定向 与行为定向相比,架构有较大区别 常用方法 用规则将页面归类到一些频道或主题分类 提取页面中的关键词 提取页面入链锚文本中的关键词 提取页面流量来源中的搜索关键词 用主题模型将页面内容映射到语义空间的一组主题上

半在线(Near-line)抓取系统 用在线cache系统存储url -> 特征表以提供实时访问 不预先加载任何cache内容,对cache中不存在的url, 立刻返回空特征, 同时触发相应的页面爬虫和特征提取 设置cache系统合适的失效时间以完成特征自动更新