Presentation is loading. Please wait.

Presentation is loading. Please wait.

Find Real Matter 搜索引擎开发培训课程提纲. Find Real Matter 前导知识  Core Java 《 Java 技术手册》  编译原理 《 Modern compiler implementation in Java 》  概率论 《应用随机过程:概率模型导论》

Similar presentations


Presentation on theme: "Find Real Matter 搜索引擎开发培训课程提纲. Find Real Matter 前导知识  Core Java 《 Java 技术手册》  编译原理 《 Modern compiler implementation in Java 》  概率论 《应用随机过程:概率模型导论》"— Presentation transcript:

1 Find Real Matter 搜索引擎开发培训课程提纲

2 Find Real Matter 前导知识  Core Java 《 Java 技术手册》  编译原理 《 Modern compiler implementation in Java 》  概率论 《应用随机过程:概率模型导论》  数据结构 《 JAVA 算法》

3 Find Real Matter 了解搜索引擎  Google 神话.  体验搜索引擎 把搜索范围限定在网页标题中 ——intitle. 把搜索范围限定在特定站点中 ——site. 把搜索范围限定在 url 链接中 ——inurl.  做自己的搜索(代码) 实现制作索引的功能,实现搜索功能.

4 Find Real Matter 遍历搜索引擎技术  30 分钟实现的搜索引擎.  准备工作环境( 10 分钟).  编写代码( 15 分钟)  发布运行( 5 分钟)  实现一个基于 WEB 结构的搜索引擎。 ( 代 码 )

5 Find Real Matter 网络蜘蛛  全文索引结构  Nutch 网络搜索软件  商业搜索引擎技术介绍  自己的网络蜘蛛(代码) 广度遍历 深度遍历 正则表达式

6 Find Real Matter BerkeleyDB  BerkeleyDB. 原理与使用方法 B 树讲解 基本 API 使用(代码)

7 Find Real Matter 抓取技术  抓取网页  MP3 抓取  RSS 抓取  图片抓取  垂直行业抓取  抓取数据库中的内容  抓取本地硬盘上的文件

8 Find Real Matter 提取文档中的文本内容  从 HTML 文件中提取文本 结构化信息提取 网页去噪  htmlparser 的基本使用(代码)

9 Find Real Matter 正文提取  DOM 树原理  NekoHTML 讲解  NekoHTML 简单应用(代码)  NekoHTML 用法的深入了解(代码) 递归调用方法的使用

10 Find Real Matter 从非 HTML 文件中提取文本  TEXT 文件  PDF 文件  Word 文件  Excel 文件  PowerPoint 文件  流媒体内容提取

11 Find Real Matter 中文分词处理  Lucene 中的中文分词  Lietu 中文分词的使用  中文分词的原理 正向最大匹配(代码)

12 Find Real Matter 查找词典算法  数字搜索树  Tire 树 Trie 树的生成过程(代码) 使用 Trie 树的常规的 API (代码) 理解 Trie 树的平衡过程(代码) Trie 树的改造以及应用(代码) 最佳前驱匹配 (代码)  语法解析树

13 Find Real Matter 隐码模型  发射概率概念  转移概率概念  统计一个词库中的发射概率和转移概(代 码)  隐码模型的实际应用(代码)

14 Find Real Matter 文档排重  语义指纹 语义指纹的概念 语义指纹的实际应用(代码)

15 Find Real Matter 中文关键词提取  关键词提取的基本方法  关键词提取的设计  从网页提取关键词  关键词提取的实际应用(代码)

16 Find Real Matter 拼写检查  英文拼写检查  中文拼写检查  英文拼写检查的实际应用(代码)

17 Find Real Matter 自动摘要  自动摘要技术  自动摘要的设计  具体的应用(代码)

18 Find Real Matter 自动分类  自动分类的接口定义  自动分类的 SVM 方法实现  多级分类

19 Find Real Matter 自动聚类  聚类的定义  K 均值聚类方法  K 均值实现

20 Find Real Matter 语义搜索  准备语义词库  把语义词库转换成同义词索引库  在 SynonymAnalyzer 中使用同义词索引库  具体的代码解析(代码) JUnit 介绍

21 Find Real Matter 跨语言搜索  简繁转换(代码)

22 Find Real Matter Lucene 的索引库  理解 Lucene 的索引库结构  设计一个简单的索引库(代码)

23 Find Real Matter 创建和维护索引库  创建索引库  向索引库中添加索引文档  删除索引库中的索引文档  更新索引库中的索引文档  索引的合并  索引的定时更新  索引的备份和恢复 (以上部分均有实现代码)

24 Find Real Matter 优化使用 Lucene  索引优化  查询优化  实现字词混合索引  定制 Tokenizer  查询大容量索引 (以上部分均有实现代码)

25 Find Real Matter 用户界面设计与实现  Lucene 搜索接口  搜索页面设计 用于显示搜索结果的 taglib 用于搜索结果分页的 taglib 设计一个简单的搜索页面  实现一个日文搜索项目的页面设计(代码)

26 Find Real Matter 实现搜索接口  布尔搜索  指定范围搜索  设置过滤条件  搜索结果排序  搜索页面的索引缓存与更新 (以上部分均有实现代码)

27 Find Real Matter 关键词高亮显示  结合以前学习的内容学会使用 highlighter 包(代码) 理解其包中基本类的使用 实际应用

28 Find Real Matter 实现多维视图及相关搜索  实现多维视图 bitsSet 介绍 计算机中进制转换和位移介绍  MoreLikeThis 的具体使用 (以上部分均有实现代码)

29 Find Real Matter 实现 AJAX 自动完成  用 AJAX 技术设计搜索页面(代码)

30 Find Real Matter 用 Solr 实现分布式搜索  Solr 服务器端的配置与中文支持  把数据放进 Solr  从 Solr 删除数据  SolrJ 客户端搜索界面  Solr 搜索结果优化  Solr 的.net 客户端  Solr 的 PHP 客户端

31 Find Real Matter 图像的 OCR 识别  调用 OCR 识别图像的过程  基于 SVM 的 OCR 识别代码

32 Find Real Matter Web 图分析  用 BerkeleyDB 存储 Web 图  WebGraph 压缩存储 Web 图

33 Find Real Matter Thank you  Question?


Download ppt "Find Real Matter 搜索引擎开发培训课程提纲. Find Real Matter 前导知识  Core Java 《 Java 技术手册》  编译原理 《 Modern compiler implementation in Java 》  概率论 《应用随机过程:概率模型导论》"

Similar presentations


Ads by Google