编程作业3:网页正文抽取 (10分)
任务 从html文件中抽取 正文 锚文本(anchor text) 和对应的超链接(hyperlink)
背景介绍 构建信息检索系统的第一步 爬取数据:利用爬虫抓取互联网上的网页 分析网页:获取文本内容(分词、进而建倒排索引)和链接(送给爬虫接着抓取新数据) …
HTML网页 最基本的网页是纯HTML格式文件 HTML简介 HTML详细介绍 本课程不考虑基于JavaScript等语言的动态交互式网页 HTML简介 HTML 是用来描述网页的一种语言/超文本标记语言 (Hyper Text Markup Language) HTML 是一种标记语言 (markup language),由一套标记标签 (markup tag)构成 HTML详细介绍 http://www.w3school.com.cn/html/
网页正常显示下,所有可以看到的内容称为“正文” HTML网页介绍 锚文本,超链接不可见 网页正常显示下,所有可以看到的内容称为“正文”
HTML网页介绍 锚文本 超链接 查看网页HTML源代码
输入:1.html <html > <head> … <title>网页题目</title> <body> 正文 <a href=“http://a.com/a.html”>锚文本</a> </body> </html>
输出:1.txt 输出如下,由三部分构成: title: 网页题目 body: 正文:网页正常显示时看到的所有内容(不考虑横线等格式信息,连续的空行压缩为一个空行) link: 锚文本a http://a.com/a.html 锚文本b http://a.com/a.html …
测试样例(请测试) 网页1:1.html 输出:对应的文本内容和链接 网页2:2.html
提交要求 必须有readme.txt文件说明如何编译代码和如何进行测试 系统输出格式要符合要求 输入/输出格式要简单明了,容易操作