受众定向标签体系 受众定向即为AUC打标签的过程 标签的两大主要作用 1 上下文标签可以认为是即时受众标签 建立面向广告主的流量售卖体系 为各估计模块(如CTR预测)提供原始特征 1
标签体系举例 Yahoo BT标签体系: Finance - Bank Accounts, Credit Cards, Investiment, Insurance, Loans, Real Estate, ... Service - Local, Wireless, Gas & Electric, ... Travel - Europe, Americas, Air, Lodging, Rail, ... Tech - Hardware, Software, Consumer, Mobile, ... Entertainment - Games, Movies, Television, Gambling, ... Autos - Econ/Mid/Luxury, Salon/Coupe/SUV, ... FMCG - Personal care, ... Retail - Apparel, Gifts, Home, ... ... Other - Health, Parenting, Moving, ... 2
行为定向数据来源 用户标识 用户行为 除上下文和地域外各种定向的基础,需要长期积累和不断建设 可以通过多家第三方ID绑定不断优化 业界公认有效行为数据(按有效性排序) 交易,预交易,搜索广告点击,广告点击,搜索,搜索点击,网页浏览,分享,广告浏览 需去除网络热点话题带来的偏差 越靠近demand的行为对转化越有贡献 越主动的行为越有效
行为定向数据来源 广告商(Demand)数据 用户属性和精确地理位置 社交网络 简单的cookie植入可以用于retargeting。 对接广告商种子人群可以做look-alike,提高覆盖率。 用户属性和精确地理位置 非媒体广告网络很难获取,需通过第三方数据对接。 移动互联和HTML5为获得地理位置提供了便利性。 社交网络 朋友关系为用户兴趣和属性的平滑提供了机会 实名社交网络的人口属性信息相对准确
行为定向计算过程 t(i)(u):用户u在标签i上的强度
行为定向其他问题 Session log Long-term行为定向两种多日累积方式 将各种行为日志整理成以用户ID为key的形式,完成作弊和无效行为标注,作为各数据处理模块的输入源 可以将targeting变成局部计算,大大方便整个流程 Long-term行为定向两种多日累积方式 滑动窗方式(f 为long-term标签, 下标为日期) 时间衰减方式(空间复杂度低,仅需昨天的f 和今天的t)
受众定向评测
核心业务: 其他点评: 主要提供面向publisher的数据加工服务 直接运营ad network,并帮助广告主进行campaign管理和优化 其他点评: 较早提出受众定向(audience targeting)的概念 数据标签不像bluekai那样在市场上公开出售, 仅供委托他们优化campaign的广告商使用 使用标签impression创造的营收按照一定比例跟publisher分成
页面主题分析 - Topic Model 问题: 发现一组文档中抽象的主题(topics) 常用模型图表示 p(w|•),p(z|•): PLSI LDA(Latent Dirichlet allocation) GaP (Gamma-Poisson) p(w|•),p(z|•): Multinomial p(π|•), p(θ|•): Dirichlet p(z|•): Gamma p(w|•): Poisson
经验贝叶斯 – Empirical Bayes 如下图模型, 如何确定hyperparameter ? EB解: 当 为指数族分布, 为其共轭先验时,可用EM求解, 其中E-step为Bayesian inference过程, 由 得到后验参数 , 而M-step为:
从经验贝叶斯看LDA LDA可以视为PLSI的经验贝叶斯版本 Deterministic inference: 由于PLSI不是指数族分布,而是其混合分布,因此其贝叶斯版本不能使用前面的EM算法 Deterministic inference: 可用变分近似,假设z和θ的后验分布独立迭代求解过程与EM非常相似,称为VBEM 在大多数问题上无法保证收敛到局部最优 Probabilistic inference: 可用Gibbs-sampling(Markov-chain Monte-Carlo, MCMC, 的一种),以概率1收敛到局部最优值 Collapsed Gibbs-sampling:
Topic model的并行化 EM及VBEM的并行化 AD-LDA: Gibbs Sampling的并行化 E-step(mapper): 可以方便地并行计算 M-step(reducer): 累加E-step各部分统计量后更新模型 将更新后的模型分发到新的E-step各个计算服务器上 AD-LDA: Gibbs Sampling的并行化 Mapper: 在部分data上分别进行Gibbs sampling Reducer: 全局Update 文档的Topic model抽取可以认为是一个大量(而非海量)数据运算,采用类MPI架构的分布式计算架构(例如spark)会比map/reduce效率更高
精准广告业务本质 油田 数据源 定向系统 原材料 原油 用户行为 炼油厂 商品 用户标签 电子 汽油 理财 体育 投放机 加油站
精准广告产品和运营体系 销售 客户 架构师 创意 AE 技术经理 开发团队 产品经理
定向广告优化流程 用户选择 数据决策 设定标签 创意匹配 广告投放 数据追踪 标签优化 用户访问搜 狐任何页面 广告位向精准系统 发送广告请求 识别用户微ID,获取个人标签 识别网页url, 获取网页标签 内容最高匹配度 价格最强竞争力 精准系统选取 最优广告投放 分析用户广告行为 充实客户原始数据 建立客户唯一数据库 优化客户二次投放
精准广告业务若干错误观念 越精准的广告,给市场带来的价值越大 媒体利益与广告主利益是相博弈的关系 精准投放加上大数据可以显著提高营收 人群覆盖率较低的数据来源是不需要的 不同的广告产品应该采用不同的投放机
数据管理平台 (Data Management Platform) 目的: 为网站提供数据加工和对外交易能力 加工跨媒体用户标签,在交易市场中售卖 是否应直接从事广告交易存在争议 关键特征: 定制化用户划分 统一的对外数据接口 代表: Bluekai, AudienceScience
DMP系统架构示意
Data Highway工具 Scribe: 大规模分布式日志收集系统,可以准实时收集大量日志到HDFS,利用Thrift实现底层服务 类似工具: Flume, Chukwa http://dongxicheng.org/search-engine/scribe-intro/
核心业务: 其他点评: 为中小网站主提供数据加工和变现的方式 通过汇聚众多中小网站用户资料和行为数据,加工成受众定向标签,通过Data exchange对外售卖 其他点评: 提供大量细分类别、开放体系上的标签,如“对宝洁洗发水感兴趣的人”,“想去日本旅游的人” 靠数据出售变现,并与提供数据的网站主分成,并不直接运营广告业务 用户可以看到自己的资料被谁使用,也可以选择“捐给慈善机构”
Bluekai标签体系 21 类别 描述 数据来源 规模(用户数) Intent 最近输入词表现出某种产品或服务需求的用户 160+MM B2B 职业上接近某种需求的用户 Bizo 12+MM Past Purchase 根据以往消费习惯判断可能购买某产品的用户 Addthis, Alliant 65+MM Geo/Demo 地理上或人口属性上接近某标签的用户 Bizo, Datalogix, Expedia Interest/LifeStyle 可能喜欢某种商品,或某种生活风格的用户 Forbes, i360, IXI 103+MM Estimated Financial 根据对用户财务状况的估计做的分类 V12 21
竞价广告
位置拍卖市场 位置拍卖(Position auctions) 对称纳什均衡(Symmetric Nash equilibrium) 将对象 a={1, 2, … A} 排放到位置s={1, 2, …, S} 对象a的出价(bid)为ba , 而其对位置s的计价为uas=vaxs ,(x1>x2 >…>xS) 将va视为点击价值,xs视为点击率,该模型可近似描述广告系统竞价问题(对显示广告,S = 1) 对称纳什均衡(Symmetric Nash equilibrium) (vs – ps) xs >= (vs – pt) xt , 其中pt = bs+1 寻找收入最大化且稳定的纳什均衡状态是竞价系统设计的关键
定价机制 VCG(Vickrey–Clarke–Groves)机制 广义第二高价(Generalized second pricing)机制 某对象的收费应等于给他人带来的价值损害 整体市场是truth-telling的 广义第二高价(Generalized second pricing)机制 ps = rs+1 / μs+1= μs+1bs+1 / μs+1 与VCG机制相比,会收取广告主更多的费用 整体市场不是truth-telling的 简单易行,为在线广告系统广泛采用
市场保留价和价格挤压 价格挤压(Squashing) 市场保留价(Market Reserve Price, MRP) 可能赢得竞价的底价,可以是统一的,也可以在各部分流量上不同 RTB情形下可以完全动态 价格挤压(Squashing) : 只根据出价来排序 : 只根据点击率来排序 市场竞争激烈程度的简单有效控制方法
核心业务: 其他点评: 为搜索广告主提供大量关键词情形下的ROI优化服务,并收取固定比例的提成 核心技术为Portfolio Optimization 目前正在向显示广告领域扩张 其他点评: 核心竞争力除了算法还来自于长时间数据积累 被Adobe收购的原因是Omniture的数据,现改名Adobe Adlens
重定向 (Retargeting)
重定向的分类 网站重定向(Site retargeting) 搜索重定向(Search retargeting) 根据用户在广告主网站上的行为进行重定向 搜索重定向(Search retargeting) 根据用户与广告主相关的搜索行为进行重定向 个性化重定向(Personalized retargeting) 根据用户在广告主网站上关注的具体产品和购买阶段,推送商品粒度的广告 不再推送已购买产品,而是推荐相关产品 对广告主而言,可以视为一个站外推荐引擎
推荐算法概述 协同过滤算法(Collaborative filtering) 内存方法(Memory-based), 或非参数方法 Neighbor-based methods Item-based/user-based top-N 模型方法(Model-based), 或参数方法 矩阵分解(Matrix factorization) Bayesian belief nets 基于内容算法(Content-based algorithms) 推荐算法的本质,是对{u, a}的co-occcurence这一稀疏矩阵的参数或非参数化的描述 推荐算法选择的关键,是探索较合适的bias与variance的平衡, 以适应问题的数据稀疏性
推荐算法举例 – SVD++ 协同关系矩阵: SVD++算法: {rua}UⅹA :每个元素rua表示u在a上的交互强度 此矩阵的大多数元素为未知,推荐算法的目标就是预测这些位置上的强度值(对比:Topic model) SVD++算法: 矩阵分解方法,比SVD在处理未知元素上更合理,同时在矩阵稀疏时计算速度快 无法直接处理新出现的u和a 在Netflix电影推荐项目上取得了很好的效果 全局偏置 u的偏差 a的偏差 u的描述 a的描述
核心业务: 其他点评: 主要提供搜索重定向功能,服务于品牌广告商 按照固定CPM与广告主结算,并购买较低价CPM实现套利 目前主要采用非RTB采买方式,刚收购了一家小的RTB技术公司 全球有~150人,商业模式决定了目前主要是销售驱动
核心业务: 其他点评: 基于站外推荐的个性化重定向系统 动态创意技术 与广告主商品库的准实时feed接口 并不是完全采用RTB购买流量,而是有相当部分采用优选CPM购买方式 在广告主端完全采用CPC结算方式 不会将cross-site数据用于推荐 全球有~600人,2012年营收将有数亿美元的规模
新客推荐(Look-alike) 问题: 新客推荐: 对于中小电商,仅仅对老用户定向营销远远不够 对于某些类型的广告商,大多数用户无法通过重定向渠道捕捉,例如银行 新客推荐: 由广告商提供一部分种子用户,DSP通过网络行为的相似性为其找到潜在用户 是一种广告商自定义标签,可以视为扩展的重定向 在同样reach水平下,效果应好于通用标签 尽量利用非demand数据,注意避免在竞争对手之间倒卖用户
1 2 3 4 定制化定向功能 网站重定向 搜索重定向 站外推荐 新客推荐 200-300% ROI↑ 50-100% ROI ↑ 电商网站提供 用户购物阶段数据 电商网站浏览行为 客户购买搜索关键词 客户提供种子用户 同一用户,访问搜狐 对搜索该关键词用户贴标签 分析用户具体行为, 匹配针对性广告 分析行为相似性 找到潜在用户 展示延续广告 匹配与关键词对应标签 展示对应广告 展示对应广告 展示对应广告 200-300% ROI↑ 50-100% ROI ↑
从Demand角度看推荐 站外推荐 站内推荐 新客推荐 pv: …, search: …, adc: …, share: … 看起来很相似!