网络信息采集概述 — 学习内容 学生学习后 初步了解 IP 地址, URL 以及域名对应关系; 了解网络信息资源的概念和网络信息资源的特点,懂得网络 信息资源的重要性,学会甄别网络信息资源; 掌握网络信息资源的几种类型; 了解人工采集的几种方式,了解自动采集的原理、途径和工 具; 应了解网络信息采集发展趋势是智能化、专业化、个性化、 多语种化; 网页采集技术、数据挖掘技术、信息过滤、自动文摘技术。
搜索引擎 — 学习内容 学生学习本单元应初步 了解搜索引擎的发展历史 现状与发展趋势等搜索引擎的基础知识 掌握搜索引擎的分类 搜索引擎的工作原理简单表示为:从互联网上抓取网页 → 建立索引数据库 → 在索引数据库中搜索排序 搜索引擎的语法规则。
网络数据采集基础原理 — 学习内容 学生通过学习, 掌握网络数据采集的基本结构及工作流程,即:产品总体 架构、基本结构及工作流程、采集总体架构。 掌握抓取策略,即:深度优先遍历策略、宽度优先遍历策 略、反向链接数策略、非完全 PageRank 策略、大站优先 策略。 掌握搜索引擎数据采集的几个分类,即:批量型数据采集 、增量型数据采集、垂直型数据采集及元搜索引擎。 掌握爬虫体系中的两种结构:主从式分布数据采集结构和 对等式分布式采集结构。
网络数据采集 — 学习内容 学生通过学习, 结构化数据与非结构化数据 网页 DOM 结构 URL 详解 爬虫规则 robots 协议 Post 和 get 区别 网页编码处理 信息来源分类(境内、境外) 网站信息元素分析
网络数据采集 — 学习内容 学生通过学习, 动态代理运用 下载网页的基本方法 网页图片采集 FTP 文件采集 数据爬取 Httpclient 数据爬取 _URLConnection 网页 HtmlUnit 采集 即时信息采集
网络数据采集 — 学习内容 学生通过学习, 暗网采集 抓取需要登录的网页 多线程采集 分布式数据采集 布隆过滤器 Redis 去重 BDB 去重
网络数据采集 — 学习内容 学生通过学习, SQLLITE 去重 正则表达式 xpath 解析 Jsoup 解析
采集数据存储 — 学习内容 学生通过学习, 掌握关系型数据库的概念,理解关系型数据库的优点;重 点掌握关系型数据库与 NoSQL 数据库的区别。 了解采集存储 -NOSQL 数据库的定义、数据模型。掌握 NOSQL 数据库 -mongodb 的安装、操作。了解 NOSQL 数据 库 -hbase 的定义、功能。 NOSQL 数据库的定义、数据模型。 NOSQL 数据库 - mongodb 的安装、操作。 NOSQL 数据库 -hbase 的定义、 功能。
采集数据存储 — 学习内容 学生通过学习, 了解采集存储 -lucene 的几种搜索方式,了解 lucene 的优 点,系统结构,包结构;了解 lucene 入库逻辑与查询逻辑 。 了解采集存储 -elasticsearch 的基本概念、安装及应用。 了解采集存储 - hadoop 简介, HDFS 基本概念以及 HDFS 架构。
数据挖掘 — 学习内容 学生通过学习, 了解数据挖掘 -ICTCLAS 分词 ; 了解数据挖掘 - Paoding 分词 ; 了解数据挖掘 - IKAnalyzer 分词及实例 ; 了解数据挖掘 - 相似度计算概念 ; 了解数据挖掘 - 相似度计算应用领域 ; 相似度计算原理 TF-IDF 概念及相似度计算原理的统计方法 ; 了解数据挖掘 - 相关性搜索概念 ; 了解英文的同义词词库 ;
数据挖掘 — 学习内容 学生通过学习, 了解了解语义指纹概念 ; 了解提取网页的语义指纹的方法 ; 了解语义指纹生成算法 ; 了解语义指纹 SimHash; 了解计算海明距离方法 ; 了解 SimHash 计算过程 ; 了解 Hive Hadoop 之上的数据仓库平台 ; 了解数据挖掘 - 文本分类方法 ; 了解数据挖掘 - 文档信息提取方法.
医院互联网信息管理平台案例 学生通过学习, 了解医院互联网信息管理平台案例项目背景 能够分析医院互联网信息管理平台案例产品模块 能够进行项目采集存储分析 能够项目采集范围分析 能够准确确定项目采集的基本元素 能够对行业词库整理 能够对数据采集器平台进行管理 能够对互联网信息进行采集