搜索小组本学期工作汇报 汇报人:许玉赢
目录 完成的内容 01 展望 02
完成的内容 论文统计分析与抓取 论文搜索方面 论文认领 论文统计管理系统的开发 监控论文爬虫系统的运行,重新抓取异常数据 开发ACM、SCI和《计算机科学》等论文库的爬虫 论文搜索方面 添加按作者搜索论文功能 提高论文搜索的准确率 合并全网论文搜索与站内搜索 修改论文搜索首页,默认不再全部显示数据,加快速度 全网搜索/站内搜索可以根据paper类型进行搜索 论文认领 解决论文认领时重复推荐的问题 添加批量认领功能 把论文认领移到空间
完成的内容(续) 动态搜索等站内搜索 升级动态搜索、学者搜索(中文版和英文版)、团队搜索和课程搜索,由Mysql的like查询改为全文检索 修改各个搜索首页,按访问量分页展示全部数据 修改动态搜索首页的关键词为标签云展示 升级学者搜索的结果排序,在相关度的基础上再按访问量排序 按单位搜索课程和搜索团队 建索引的出错处理 升级solr搜索的分词器 添加过滤停词功能 添加搜索提示功能 添加繁简体互搜功能 改进分词算法 改进搜索排序算法 统一搜索导航栏
论文统计 按语言统计 按类型统计 按年份统计
按语言统计 语言 数量 中文 41423681 英文 33918084 德文 75728 法文 1179 荷兰文 1802 意大利文 952 其他 1820262 总数 77241688
按类型统计 类型 数量 期刊论文 72977716 期刊杂志 21525 会议论文 3622033 会议 31522 书籍章节 23280 学术专著 36050 学位论文 6850 其他 257343 总数 77241688
2015年抓取的论文 2015年共抓取论文11 014 701篇
近10年论文统计
近几年论文较少的原因 微软学术搜索改变,链接失效 知网禁止任何爬虫抓取其论文细节页 自2014年起不再抓知网的论文 2005 566449 年份 数目 2005 566449 2006 650094 2007 827255 2008 860307 2009 789082 2010 801915 2011 931506 2012 786817 2013 3524 2014 微软学术搜索改变,链接失效 知网禁止任何爬虫抓取其论文细节页 自2014年起不再抓知网的论文 抓取的知网论文统计
合并全网论文搜索与站内论文搜索
论文统计管理系统的开发
论文统计管理系统
升级动态搜索等站内搜索 原搜索是用mysql的like查询 耗时 返回的是精确匹配 无中文分词
修改各个搜索首页 按访问量分页展示全部数据
学者搜索首页
动态搜索的关键词展示
升级学者搜索的结果排序 识别是否搜索单位 按访问量排序
升级各个搜索的排序算法 部分匹配查询
部分匹配查询
添加搜索提示功能
按单位搜索课程
按单位搜索团队
繁简体互搜功能
升级分词算法 可以正确切分姓名 例子:切分文本“计算机学院汤庸教授” 新分词算法的结果 旧算法的结果
展望 完善、美化前端页面 开发爬虫运行监控系统 定时抽样,检查数据完整性 清洗论文数据,重新抓取缺少某些信息的论文
THANKS