基于Hadoop的广告投放系统 暴风影音--李立松
广告投放思维导图
新老系统对比 分析方式 分析效率 及时性 一个是单机 一个是分布式 上百G的数据 以前是10个小时左右 现在能达到10分钟到半个小时 以前按天算 现在可以达到按小时甚至按半个小时
系统流程标准化 日志格式 接收 加载 清洗 分析 展现
硬件储备 采集多台 hadoop 计算节点几十台 机器配置高配
日志接收 格式标准化 接收方式 scribe nginx 每一个小时cut文件 并发量(一天上百G) 接收与集群分离(多台接收机)
加载 清洗 hive建表 一个小时往集群加载一次 一个小时加载完后立即清洗 达到准实时(接下来做成半个小时) 每小时建一次表
广告逻辑实现 手段 内容 策略
手段 hadoop+python + hive+java+mahout 执行方式包括 天执行 小时执行 周执行 月执行 涉及到对表分区
内容 广告转换效果分析 广告空间效果分析 CPM分析 投放效果分析 独立展现用户数 独立点击用户数 协商 库存 覆盖度分布(日、周、月)[1--N频次] 展现点击
策略 所有复杂逻辑均在集群内部完成 数据库展现端不做任何逻辑运算 把所有涉及到的数据资源都同步到HDFS 上述所有 提高用户体验效果
广告投放指数 暴风指数(添加相似影片推荐) 做投放广告指数 使用余弦相似度 帮助广告主选择投放的影片 观看单个广告的投放效果地域分布 根据某个影片可以看出某个广告的受众人群(年龄、职业、性别等)
暴风指数
总结 根据相似的影片找到相似的受众人群 选择影片投放 根据投放效果 (做一个广告指数)调整策略 广告指数和暴风指数相辅相成还是根据最开始那个思维导图 广告指数观看单个广告投放效果 暴风指数帮助调整策略
谢谢!