Presentation is loading. Please wait.

Presentation is loading. Please wait.

编程作业3:网页正文抽取 (10分).

Similar presentations


Presentation on theme: "编程作业3:网页正文抽取 (10分)."— Presentation transcript:

1 编程作业3:网页正文抽取 (10分)

2 任务 从html文件中抽取 正文 锚文本(anchor text) 和对应的超链接(hyperlink)

3 背景介绍 构建信息检索系统的第一步 爬取数据:利用爬虫抓取互联网上的网页
分析网页:获取文本内容(分词、进而建倒排索引)和链接(送给爬虫接着抓取新数据)

4 HTML网页 最基本的网页是纯HTML格式文件 HTML简介 HTML详细介绍
本课程不考虑基于JavaScript等语言的动态交互式网页 HTML简介 HTML 是用来描述网页的一种语言/超文本标记语言 (Hyper Text Markup Language) HTML 是一种标记语言 (markup language),由一套标记标签 (markup tag)构成 HTML详细介绍

5 网页正常显示下,所有可以看到的内容称为“正文”
HTML网页介绍 锚文本,超链接不可见 网页正常显示下,所有可以看到的内容称为“正文”

6 HTML网页介绍 锚文本 超链接 查看网页HTML源代码

7 输入:1.html <html > <head> … <title>网页题目</title>
<body> 正文 <a href=“ </body> </html>

8 输出:1.txt 输出如下,由三部分构成: title: 网页题目 body:
正文:网页正常显示时看到的所有内容(不考虑横线等格式信息,连续的空行压缩为一个空行) link: 锚文本a 锚文本b

9 测试样例(请测试) 网页1:1.html 输出:对应的文本内容和链接 网页2:2.html

10 提交要求 必须有readme.txt文件说明如何编译代码和如何进行测试 系统输出格式要符合要求 输入/输出格式要简单明了,容易操作


Download ppt "编程作业3:网页正文抽取 (10分)."

Similar presentations


Ads by Google