编程作业3：网页正文抽取（10分）.

Slides:

Advertisements

Similar presentations

醫學美學之我見ー肉毒桿菌班級：應日三乙姓名：蔡雅卉學號： 497E0076. 前言現在的人，已經把整型看做是微不足道的事情了。即使只是戴牙套、局部雷射、割雙眼皮、打美白針、肉毒桿菌等等，都可以在身體上做不同的改變，而讓自己更滿意自己的外表。

Advertisements

急性腹痛急性疼痛. 急性疼痛 — 孙树杰、沈洪、刘保池（1）（1）（1）（1）概述（2）（2）（2）（2）重症急性腹痛的临床特点（3）（3）（3）（3）急性腹痛的分类及诊治主要教学内容.

第六章网页设计与制作基础.

网页设计与制作教师姓名：职务：.

第六章数据库访问页 6.1 数据访问页视图 6.2 创建数据访问页 6.3 编辑数据访问页 6.4 查看数据访问页退出.

职业教育.课程改革.项目课程江苏省太仓中等专业学校校长江苏省职业教育教学改革创新指导委员会委员江苏省职业教育课程开发研究中心组组长

2011计算机类教研活动陈国久.

讲故事训练授课人：田轶.

怎样利用搜索引擎检索网络资源 1. 网络的基础知识

第十一課菜園 6-11.

Web与信息检索 LJ JUFE-SIT.

中国特色社会主义政党制度主讲：西南大学李强 2011年12月28日.

專題製作許惠淑.

第5章 HTML 標籤介紹.

校本选修课第三专题西藏问题北京师大二附中李文燕.

欢迎南京市政治学科的教研同仁光临指导.

DREAMWEVAER MX 2004入门楼斌 BBS ID：lou 生命科学学院

网页制作与网站设计教学课件网页制作与网站设计课程组开发

网页图像动画与脚本编程主讲：熊丽华.

学习情境三：配置WEB服务器服务器配置与管理.

正修科技大學教學發展中心教師教學觀摩與經驗分享電子工程系張法憲副教授.

让微笑伴您一生.

第8章信息获取与发布《大学计算机基础》桂林电子科技大学陈辉金适用教材：周娅等. 大学计算机基础.桂林：广西师范大学出版社，2013

全球資訊網（WWW）簡介.

蘇軾詞的賞析

柯奕宏（06）王予亨（13）郭秉逸（15）楊雯凈（23）顏佑瑩（32）

第十五章传播学调查研究方法.

HTML簡介、文字的變化、超連結的使用主講：朱漢琳.

自然與生活科技領域認識太陽能蘇紋琪、石明玉.

HTML5全栈开发序列课程《前端入门》之HTML入门余鹏作品.

Ch1.認識全球資訊網 1.1 「網際網路」與「全球資訊網」 1.2 全球資訊網的基礎 – 網頁與超連結

　全能的天才畫家－李奧納多‧達文西 (西元1452年-1519年) 指導老師：袁淑芬老師製作人：饒佩芯.

第 2 章必備的 HTML 與 CSS 重點.

十四堂人生創意課作者李欣頻塑造自身生命風格，專心做自己，活出精采的生命.

网站设计前端入门学习.

网页制作与设计主编耿杰科学出版社.

W3C标准网页制作主讲教师：张涛.

水陆草木之花，可爱者甚蕃。晋陶渊明独爱菊。自李唐来，世人盛爱牡丹。予独爱莲之出淤泥而不染，濯清涟而不妖，中通外直，不蔓不枝，香远益清，亭亭净植，可远观而不可亵玩焉。予谓菊，花之隐逸者也；牡丹，花之富贵者也；莲，花之君子者也。噫！菊之爱，陶后鲜有闻。莲之爱，同予者何人?牡丹之爱，宜乎众矣！中国风莲说.

認識我的故鄉＿台中市.

中国科学技术大学计算机系陈香兰（0551－） Spring 2009

W3C标准网页制作主讲教师：张涛.

W3C标准网页制作主讲教师：张涛.

The Department of Education Technology

网页制作基础 CNIC 王桦.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

前端技术开发高莺.

2.2 Web界面设计信息工程系向模军 Tel: QQ:

程式語言與邏輯高慧君　台北市立南港高中 2006年12月22日.

第三章 HTML相关技术基础知识纵观各种动态页面开发技术，无论是JSP、ASP还是PHP都无法摆脱HTML的影子。这些动态的页面开发技术无非是在静态HTML页面的基础上添加了动态的可以交互的内容。HTML 是所有动态页面开发技术的基础。在接下来的章节将要详细介绍的就是HTML相关的一系列技术，包括HTML、

十三.使用模板和库.

新PQDT论文全文库提交平台.

主讲：陶建平华中科技大学网络与计算中心

動態網頁程式設計實習主講人：徐培倫老師.

UI 软件设计页面布局（一）.

精忠报国演唱：屠洪纲作词：陈涛作曲：张宏光狼烟起江山北望龙起卷马长嘶剑气如霜心似黄河水茫茫二十年纵横间谁能相抗恨欲狂长刀所向多少手足忠魂埋骨它乡何惜百死报家国忍叹惜更无语血泪满眶马蹄南去人北望人北望草青黄尘飞扬我愿守土复开疆堂堂中国要让四方来贺.

6-1　認識超連結超連結是網頁中少不了的元件，透過他才能將不同的網頁、網站相連，讓使用者可以在不同網站中瀏覽。而圖片、動畫等檔案，也是透過超連結的方式來呈現網頁中，所以底下讓我們來好好的認識超連結。

XML備份MySQL資料庫 <html> <head>

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

项目二：HTML语言基础.

關鍵字廣告工具、搜尋引擎最佳化、損益表實例

樂樂請假了尊重的故事資料來源：臺北縣國民小學品德教育手冊故事來源：臺北縣國民小學品德教育手冊網路小故事

聽聽那冷雨---重點摘要二愛　王煜榕.

如何制订幼儿园园本培训工作计划大连亿达世纪城幼儿园姜承华 2011年3月10日.

僅首頁出現本title即可責任的故事（二年級）生命最美麗動人的本能簡報製作：瑞柑國民小學鄭雙慧文/ 何秀芳.

憲政與民主應化3A 邱泓明.

W3C标准网页制作主讲教师：张涛.

古蹟知性之旅我和新港奉天宮有個約報告人：陳映竹傅湘甯.

第1章 HTML基础主讲人：刘泰然经济管理学院.

Presentation transcript:

编程作业3：网页正文抽取（10分）

任务从html文件中抽取正文锚文本（anchor text) 和对应的超链接(hyperlink)

背景介绍构建信息检索系统的第一步爬取数据：利用爬虫抓取互联网上的网页分析网页：获取文本内容（分词、进而建倒排索引）和链接（送给爬虫接着抓取新数据） …

HTML网页最基本的网页是纯HTML格式文件 HTML简介 HTML详细介绍本课程不考虑基于JavaScript等语言的动态交互式网页 HTML简介 HTML 是用来描述网页的一种语言/超文本标记语言 (Hyper Text Markup Language) HTML 是一种标记语言 (markup language)，由一套标记标签 (markup tag)构成 HTML详细介绍 http://www.w3school.com.cn/html/

网页正常显示下，所有可以看到的内容称为“正文” HTML网页介绍锚文本，超链接不可见网页正常显示下，所有可以看到的内容称为“正文”

HTML网页介绍锚文本超链接查看网页HTML源代码

输入：1.html <html > <head> … <title>网页题目</title> <body> 正文 <a href=“http://a.com/a.html”>锚文本</a> </body> </html>

输出:1.txt 输出如下，由三部分构成： title: 网页题目 body: 正文：网页正常显示时看到的所有内容（不考虑横线等格式信息，连续的空行压缩为一个空行） link: 锚文本a http://a.com/a.html 锚文本b http://a.com/a.html …

测试样例（请测试）网页1：1.html 输出：对应的文本内容和链接网页2：2.html

提交要求必须有readme.txt文件说明如何编译代码和如何进行测试系统输出格式要符合要求输入/输出格式要简单明了，容易操作