数据说明 2014-12-12 郝蕊
Amazon数据说明-概述 2014.10.09-2014.12.10 11个分类(数码相机、手机) 790个品牌(数码相机170个,手机450个) 9427个商品 185380条数据 11.17-12.06爬虫出现问题
Amazon数据说明-缺失 num_reviews:93997/185380 consumer_rating:94090/185380 无用户评价 consumer_rating:94090/185380 sale_rank:19431/ 185380 10.09-10.20 文件名解析获取排名信息 price:35092/185380 10.21-10.30 通过爬取外部网站数据填充 category:39988/185380 利用已解析category进行填充 brand:53161/185380 利用已解析brand进行填充 price集中于10.21-10.30号之间
JD数据说明-概述 2014.09.29-2014.12.10 7个分类(单反相机、数码相机、手机) 544个品牌(单反相机25个,数码相机93个,手机340个) 5975个商品 111395条数据 10.20-11.09爬虫出现问题
JD数据说明-缺失 consumer_star:74330/ 111395 consumer_rating:2034/ 111395 num_reviews:2034/ 111395 consumer_rating_high:2034/ 111395 consumer_rating_middle:2034/ 111395 consumer_rating_low:2034/ 111395 consumer_rating_with_pic:2034/ 111395 price:160/111395 brand_name:10328/111395 利用已解析brand进行填充
数据汇总说明 Amazon JD Baidu_Adv 2014.10.09-2014.11.16 2014.12.07-2014.12.20 2014.09.29-2014.10.19 2014.11.10-2014.12.20 Baidu_Adv 2014.11.6 start 2014.10.20-2014.12.20 汇总日期: 10.20-11.10 12.07-12.20 *数据量还是很多的,论文中为Nikon和Cannon共148个产品的4个月数据,我们提供大概数千(3000个)产品,数百品牌2个月左右数据,但就是不连续
安排: 自动化 缺失值修补 PCOnline、ZOL抓取 评论信息抓取 Baidu_Adv信息 当天抓取信息当天解析 商品feature信息解析 缺失值修补 Amazon中sale_rank、category、brand缺失值 Amazon中price抓取外部网站 JD中consumer_star、brand缺失值 JD中category修复 PCOnline、ZOL抓取 确定PCOnline、ZOL、Amazon、JD商品映射,商品集合 解析商品评分、评论数目 评论信息抓取 解析Amazon产品上市时间 评论其他解析内容 Baidu_Adv信息 由星期、月份计算日期 *是否需要确定相同商品集合(还是Amazon自己分析的时候用自己的?这样数据量更大一些) *Amazon和JD最后商品集一样的话上市时间也一样,或者用最早评论日期