数据说明 2014-12-12 郝蕊.

Slides:



Advertisements
Similar presentations
為全世界的人 找到珍貴的時刻 Sweeten Your Life 咖啡連鎖店 85 度 C 四會資二 A 4970R001 王語萱 4970R002 周欣怡 指導老師 : 林秀紋 4970R009 廖于婷 4970R021 陳宜惠 4970R062 高郁淳.
Advertisements

东方华尚公司 积极响应国家提出的 “ 互联网 +” 行动计划,秉承东方网络 “ 渠道制胜、内容 为王、平台支撑、用户至上 ” 的发展战略,全力打造核心产品 “ 沙发院线 ” ,通过电影投资、 版权经营、全网发行等多元化市场运作,立志将 “ 沙发院线 ” 打造成中国首个院线电影的数字发行平台, 成为实体院线之外的.
AWS 公有云服务. Amazon Web Service 简介 AWS 是向最终用户交付计算资源、保存数据和其他应用程序的一种最经济划算的方式,开发人员只需要按使用量付费,无需前期资本支出。利用 AWS ,开发人员可以轻松购买计算、存储、数据库和其他基于 Internet 的服务来支持其应用程序,以及灵活选择任何开发平台或编程环境。
宜昌金海科技股份有限公司 IB START 投行圈 2000 万股份定向募集项目. 主营业务介绍 从事各种酒类包装盒、食品饮料包装盒、包装箱等包装产 品及相关包装材料的设计、印刷、生产与销售,并为客户 提供包装产品设计、包装方案优化、第三方采购与包装产 品物流配送、供应商库存管理以及辅助包装作业等包装一.
蟲林小學 ? 歡迎光臨.
人生 大富翁.
新多益擬真英檢系統 以專區帳密登入 選擇任一項目 注意:限用IE瀏覽器!!.
肌肉、骨骼、關節 傷害急救 組員: 499i0014 高藝庭 499i0017 徐育敏 499i0022 林佳瑩 499i0048 詹謹禎
应用型人才培养 与教学质量建设 季桂起
案例分析 ——中交集团的设立的思考.
不懂恢復力, 你就每天工作累到死! 面對長時間的工作、 討厭的上司、 沒有同理心的職場、 職涯的轉折點, 你需要──恢復力!
第六章健康教育 神木职教中心医学系.
自定义汇总报表 演示 作者:栗川.
第八讲:法律教育与法律职业比较 主讲人:刘永艳 中央党校政法教研部教授
中小企业管理规范化 培训部门:东莞市达标企业管理咨询有限公司 1.
中国企业家精神特质研究 项目执行方案 正和岛研究院课题组 2013年3月18日
良心處方 Click to start..
2.1 创造价值与传递价值的贯通 产品的研发、生产都是在创造价值,然而,成功的价值创造需要成功的价值传递,因此,行业需要一个不断创新和进化的销售渠道系统和价值服务网络平台。
青岛魅力之城.
職業學校群科特色課程規劃報告 報告人:曾璧光 日期:
Add Your Company Slogan
2008年统计工作总结及 2009年统计工作要点 厦门市高新技术发展协会 2009年12月23日 张博.
中鸣虚拟搜救比赛项目 (一人) 现场主题创作(40%)(一人) 3D虚拟搜救(60%)(一人).
第一节 统计指数概述 Price 一、统计指数的历史与应用 指数起源于人们对价格动态的关注。 今天的面包价格 个体价格指数 昨天的面包价格
奇妙的克隆 从事遗传学教学和研究逾60年,是我国遗传学发展的奠基人之一。 复旦大学谈家桢教授 生物学家谈家桢 复旦大学教授 获得首届上海市教育功臣的殊荣.
模块五 房地产产品策略.
北京市汽车消费市场与媒介 研究分析报告 北京大学市场与媒介研究中心.
我国鸡蛋市场 大宗商品风控部 鲁静.
香港的物價水平.
綜合活動一年級上課囉! 復興國中綜合活動兵團.
电纸书和纸质书谁更低碳 电纸书和纸质书谁更低碳调查报告 姓名:陈思瀚 指导教师:韩晓珊 杨丽华 指导教师:韩晓珊 杨丽华
第四章 旅行社的营销管理 主讲人: 宋 秋.
第八章 产品策略 第一节 产品组合策略 第二节 品牌、商标与包装策略 第三节 产品生命周期与新产品管理.
汤兵勇 教授 博士生导师 中国云计算应用联盟主席团主席 中国电子商务基地联盟主席团主席 东华大学-IBM电子商务学科发展中心主任
装备指挥技术学院 陈庆华.
GT-C3300k Training Manual S/W
晶体化学的发展及简单晶体的制作 组长:赵荣超 组员:邱静雯 叶奕琳 李晓芳 李展铨 区淑娴 梁雪莹.
产品介绍:智联天地-N5 产品类型:数据终端 建议零售价1980元 上市时间:2016 年 6 月 目标人群:物流、快递及仓储等行业从业人员
产品介绍 产品类型:数据终端 建议零售价2800元 上市时间:2017 年 2 月 目标人群:物流、快递及仓储等行业从业人员
Jul 2014 HEAT部署Hadoop集群
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
Lexicographical order VS canonical order
数 控 技 术 华中科技大学机械科学与工程学院.
Windows网络操作系统管理 ——Windows Server 2008 R2.
2019/1/12 GDP设计协同 超级管理员操作手册 GDP项目组.
Analysis on Amazon, Tmall and JD
第六章 安全衛生工作守則 6-1 前 言  6-2 訂定依據相關法令規定  6-3 工作守則製作程序及製作前應注意事項  6-4 如何訂定適合需要之安全衛生工作守則  6-5 結 論.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
「結合智慧型手機與 虛擬蝴蝶生態園之 互動系統」報告
编程作业3:网页正文抽取 (10分).
嘉得億國際官網-重銷操作流程.
資管所資料庫系統 -期末專案 卡打掐租借系統
模型分类问题 Presented by 刘婷婷 苏琬琳.
菊島海洋大觀園 記錄生態一起來.
产品介绍 TOPOLF-T198 产品类型:4G MIFI 建议零售价格:699元 上市时间: 2015年1月 目标人群:差旅人士
姚金宇 MIT SCHEME 使用说明 姚金宇
技專校院校務基本資料庫 104年度03月份填表說明會
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
Thomson-252G 外观设计 上市时间:2011年1月 目标人群:普通消者,行业用户费 标准配置:一电一充\耳机\数据线\DC充电器
2019 “FRESH TAIWAN” Project
2019 “FRESH TAIWAN” Project
实验一 原子发射光谱定性半定量分析 一、概述 二、仪器装置 三、实验步骤.
分数再认识三 真假带分数的练习课.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
首席執行長參謀談《UP學》 想再往上, 先改掉21種領導的壞習慣.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
2019 “FRESH TAIWAN” Project
2019 “FRESH TAIWAN” Project
<编程达人入门课程> 本节内容 有符号数与无符号数 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ:
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
Presentation transcript:

数据说明 2014-12-12 郝蕊

Amazon数据说明-概述 2014.10.09-2014.12.10 11个分类(数码相机、手机) 790个品牌(数码相机170个,手机450个) 9427个商品 185380条数据 11.17-12.06爬虫出现问题

Amazon数据说明-缺失 num_reviews:93997/185380 consumer_rating:94090/185380 无用户评价 consumer_rating:94090/185380 sale_rank:19431/ 185380 10.09-10.20 文件名解析获取排名信息 price:35092/185380 10.21-10.30 通过爬取外部网站数据填充 category:39988/185380 利用已解析category进行填充 brand:53161/185380 利用已解析brand进行填充 price集中于10.21-10.30号之间

JD数据说明-概述 2014.09.29-2014.12.10 7个分类(单反相机、数码相机、手机) 544个品牌(单反相机25个,数码相机93个,手机340个) 5975个商品 111395条数据 10.20-11.09爬虫出现问题

JD数据说明-缺失 consumer_star:74330/ 111395 consumer_rating:2034/ 111395 num_reviews:2034/ 111395 consumer_rating_high:2034/ 111395 consumer_rating_middle:2034/ 111395 consumer_rating_low:2034/ 111395 consumer_rating_with_pic:2034/ 111395 price:160/111395 brand_name:10328/111395 利用已解析brand进行填充

数据汇总说明 Amazon JD Baidu_Adv 2014.10.09-2014.11.16 2014.12.07-2014.12.20 2014.09.29-2014.10.19 2014.11.10-2014.12.20 Baidu_Adv 2014.11.6 start 2014.10.20-2014.12.20 汇总日期: 10.20-11.10 12.07-12.20 *数据量还是很多的,论文中为Nikon和Cannon共148个产品的4个月数据,我们提供大概数千(3000个)产品,数百品牌2个月左右数据,但就是不连续

安排: 自动化 缺失值修补 PCOnline、ZOL抓取 评论信息抓取 Baidu_Adv信息 当天抓取信息当天解析 商品feature信息解析 缺失值修补 Amazon中sale_rank、category、brand缺失值 Amazon中price抓取外部网站 JD中consumer_star、brand缺失值 JD中category修复 PCOnline、ZOL抓取 确定PCOnline、ZOL、Amazon、JD商品映射,商品集合 解析商品评分、评论数目 评论信息抓取 解析Amazon产品上市时间 评论其他解析内容 Baidu_Adv信息 由星期、月份计算日期 *是否需要确定相同商品集合(还是Amazon自己分析的时候用自己的?这样数据量更大一些) *Amazon和JD最后商品集一样的话上市时间也一样,或者用最早评论日期