5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用

Slides:



Advertisements
Similar presentations
0/40 符号( symbol )编码  1 字符编码  2 汉字编码  3 其他编码. 1/40 一、字符编码- ASCII 码 American Standard Code Information Interchange ,美国标准信息交换码; 由美国国家标准化协会 ANSI( American.
Advertisements

第六 章数据库访问页 6.1 数据访问页视图 6.2 创建数据访问页 6.3 编辑数据访问页 6.4 查看数据访问页 退出.
第3章 计算机文字处理 何海燕 实验教学部.
模块3 字处理软件Word 2010 (案例二).
项目2 字符格式和段落编排 2017年3月7日6时54分.
年终总结 通用模板 简洁实用 工作总结 年终汇报 工作计划.
计算机发展早期主要用于科学计算,现在计算机在日常生活的应用主要是处理非数值信息,那计算机如何表示以及处理非数值信息的?
5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用
在文章中插入图片 What to do? 任务一(1):请你在“愤怒的小鸟”这个文档中插入“红色小鸟”的图片。 要求:1、自学课本45-47页“做一做”的内容,找到在文档中插入图片的方法后,就动手试一试吧。 哪一小组最先完成,会加平时成绩10分噢,加油吧!
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
案例2 胸卡的制作. 案例2 胸卡的制作 知识要点: 学习重点及制作思路 学习目的: 邀请函的制作步骤: 1.掌握邮件合并功能 2.掌握比较并合并文档方法 3.掌握页面插入背景图 4.熟练使用文本框 知识要点: 1.邮件合并功能 2.文档中插入域内容 3.文本框的使用 技能要点: 1.域、文档部件操作.
PRESENTED BY OfficePLUS
永安广播电视大学 学生计算机技能培训 2005年3月26日.
第四次大作业 登陆学校图书馆网站的电子数据库
图表的创建.
在PHP和MYSQL中实现完美的中文显示
文字处理 第四章 Word 2000.
PRESENTED BY OfficePLUS
ACROBAT使用简介 ——图书馆1小时讲座.
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
科研信息管理工具 Endnote X4 王辉.
点击此处添加标题 ADD YOUR TITLE ADD YOUR TITLE 点击此处添加文本信息
INSERT THE TITLE OF YOUR
Windows 7 的系统设置.
POWERPOINT TEMPLATE HI.
PRESENTED BY OfficePLUS
指导老师:John Doe 报告人:宝藏PPT
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
本节内容 字符编码 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
编程作业3:网页正文抽取 (10分).
C语言程序设计 主讲教师:陆幼利.
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
产品推广 PRODUCT PROMOTION PRESENTED BY OfficePLUS.
计算机及办公软件应用 ©2013 苏州工业园区职业技术学院
直接扫描保存成TIF格式, 其他图片格式用Windows XP自带的 Windows图片与传真查看器打开
标准配色方案 背景 文本和线条 阴影 强调色 主色一 主色二 主色三 主色四 推荐应用顺序. 标准配色方案 背景 文本和线条 阴影 强调色 主色一 主色二 主色三 主色四 推荐应用顺序.
PRESENTED BY OfficePLUS
2019/4/20 关注NE官方微信,获取更多服务.
2019/4/16 关注NE官方微信,获取更多服务.
中国国家标准文献 共享服务平台检索 信息检索与利用 2019/4/29 王婧怡 图书馆615室 科技信息研究所
PRESENTED BY OfficePLUS
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2015 年度总结汇报 Business report template poweroint 汇报人:宝藏PPT.
POWERPOINT TEMPLATE PRESENTED BY OfficePLUS.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
项目二:HTML语言基础.
互联网行业 公司年终总结 PRESENTED BY OfficePLUS
POWERPOINT TEMPLATE PRESENTED BY YPPPT.
第六章 Excel的应用 一、Excel的单元格与区域 1、单元格:H8, D7, IV26等 2、区域:H2..D8, HS98:IT77
第4章 Excel电子表格制作软件 4.4 函数(一).
Word中活用“艺▪图▪框” 信息技术必修(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
文档创建与发布操作要点 青海省教育信息中心 2018年12月18日.
目录 01 选题背景和意义 02 论文结构 03 研究方法 04 分析讨论 05 主要结论 06 参考文献.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Python 环境搭建 基于Anaconda和VSCode.
2019 手绘巴黎创意模板 校园教育 · 毕业答辩 · 创业计划 · 提案汇报 Freeppt7.com出品.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
PRESENTED BY OfficePLUS
单击此处添加您的标题 单击此处添加副标题或简单介绍.
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
数据表示 第 2 讲.
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
微机原理与接口技术 西安邮电大学计算机学院 董 梁.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
HALLOWEEN 管理资源吧.
点击此处添加标题 PPT背景图片: PPT图表下载:
RefWorks使用指南 归档、管理个人参考文献.
入侵检测技术 大连理工大学软件学院 毕玲.
LOGO HERE 单击此处添加 您的标题标题标题 PRESENTED BY JANE DOE
Presentation transcript:

5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用 第5章 数字媒体及应用 5.1 文本与文本处理 5.2 图像与图形 5.3 数字声音及应用 5.4 数字视频及应用

5.1 文本与文本处理 5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.5 文本的展现 5.1 文本与文本处理 5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.5 文本的展现 5.1.3 文本的分类与表示

文字处理是计算机应用的基础 计算机应用=使用计算机进行信息处理 信息的形态(就是数据)有多种 数值 语言 音乐 图像 ··· 信息的形态(就是数据)有多种 其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。

计算机文字处理过程 文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体 文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示 文本在计算机中的处理过程是: 文本处理 (文本处理软件) (3) (文本编辑器) 文本编辑与排版 格式化的电子文本 (2) 文本准备 电子文本 (1) (文字与图表 的输入) 文本存储 与传输 (4) (存档/通信软件) 文本展现 (文本阅读器) (5)

5.1.1. 字符在计算机中的表示

西文字符的编码——ASCII码 西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成 美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码): ASCII字符集包含96个可打印字符和32个控制字符 采用7个二进位进行编码 计算机中使用1个字节存储1个ASCII 字符 ‘A’—65 ‘a’----97 (与’A’相差32) ‘0’-----48 存在问题: 7位代码空间太小(只能对128个字符编码) 不同国家和地区使用不同的字符集及其编码,互不兼容 东亚地区使用的大字符集无法编码

标准ASCII字符集及其码表 0 1 2 3 4 5 6 7 8 9 A B C D E F 1 2 3 4 5 6 7 1 0 0 b6 b5 b4 b3 b2 b1 b0 1 0 0 1 1 0 0 1 1 0 1 0 1 1 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 9 A B C D E F b6b5b4 b3b2b1b0

汉字如何编码? 汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素 汉字的特点 如何编码? 数量大;多个国家和地区使用;字形复杂,同音字多,异体字多 如何编码? 确定收入多少字、哪些字? 汉字在字符集中的排序方式 确定使用的代码结构和代码空间

常用的汉字编码字符集 国家标准GB2312 汉字扩充规范 GBK 国家标准GB18030 台湾地区的标准汉字字符集CNS 11643 (BIG 5,俗称“大五码”) 日本工业标准汉字字符集JIS X 0208-90 韩国国家标准汉字字符集KSC 5601-87

GB2312汉字编码字符集 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 GB2312字符集由三个部分构成: 一级汉字 (3755个) 二级汉字 (3008个) (扩充使用) 字母、数字和各种符号 ……………… 1 94 2 3 位号 …… …… 9 16 55 56 87 区 号 (按汉语拼音排列) (按偏旁部首排列) 共6763个汉字和682个符号,每个汉字或符号都有一个确定位置,该位置的区号和位号就是这个汉字的“区位码” 拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个 (注:区位码仅用于在键盘上输入汉字)

GB2312汉字的编码 每一个GB2312汉字使用16位(2个字节)表示 每个字节的最高位均为“1” 在16位代码空间中的码位分布: 第 1 字 节 第 2字节 00 7E A1 FE 00 81 A1 FE GB2312 图形符号 汉字代码空间 (6763个汉字) B0 F7 16位的代码空间共有216 =65536个码位

GB2312汉字编码的不足之处 人名、地名; 古籍整理、古典文献研究。 没有繁体字 区位码各加32得国标码,再各加128(即高位置1)得机内码。 例:‘啊’的 区位码16 01,则国标码=?机内码=? GB2312汉字字数太少,无法满足一些特殊应用的需要: 人名、地名; 古籍整理、古典文献研究。 没有繁体字 编码效率不高: (6763+682)/65536 与ASCII码不兼容

几种汉字编码的对比 GB 18030 编码保持向下兼容 27484汉字 GB2312 GBK UCS-2 (Unicode) 编码 不兼容! 00 FF 00 FF 20902汉字 6763汉字 GB2312 27484汉字 GB18030 标准名称 GB2312 GBK GB 18030 UCS-2 (Unicode) 字符集 6763个汉字(简体字) 21003个汉字(包括GB2312汉字在内) 27 000多汉字(包括GBK汉字和CJK及其扩充中的汉字) 包含10万字符,其中的汉字与GB18030相同 编码方法 双字节存储和表示,每个字节的最高位均为“1” 双字节存储和表示,第1个字节的最高位必为“1” 部分双字节、部分4字节表示 UTF-8单字节可变长编码 UTF-16双字节可变长编码 兼容性 编码 不兼容! 编码保持向下兼容

背景材料:UCS/Unicode Unicode:UTF-8 单字节可变长编码 应用:Linux,Web网页,电子邮件 解决多文种信息处理方法的发展: 传统方法(ISO):扩展ASCII码 微软的方法:代码页切换 UCS/Unicode:所有文字字母和符号集中在同一字符集进行统一编码(目前收集了17x216=1,114,112 个) UCS/Unicode的编码方案: 尽量与已有编码标准兼容 先实现部分字符的编码(101,000个) 允许有若干不同的编码方案, 例如: 单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJK汉字 四字节:其他 Unicode:UTF-8 单字节可变长编码 应用:Linux,Web网页,电子邮件 双字节: ASCII字符、拉丁、希腊、阿拉伯,常用CJK汉字,··· 四字节:CJK汉字 Unicode:UTF-16双字节可变长编码 应用:Windows,Mac,Java,···

背景材料:GB18030 无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。 GB18030实际上是UCS/Unicode字符集的另一种编码方案: 单字节编码(129个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符 GB18030目前已在我国信息处理产品中强制贯彻执行。

例: IE浏览网页时文字编码的选择

5.1.2. 文本准备 ——文稿如何输入计算机

文字符号输入计算机的方法 (1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 字符信息的输入 人工输入 自动识别输入 键盘输入 (1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法

文字符号输入计算机的方法 优点: 不足: 自然,流畅 小型化,适合移动计算 识别速度和正确性还需提高 书写要求还要降低 字符信息的输入 键盘输入 联机手写输入 自动识别输入 字符信息的输入 人工输入 优点: 自然,流畅 小型化,适合移动计算 不足: 识别速度和正确性还需提高 书写要求还要降低

文字符号输入计算机的方法 优点: 自然,方便,适合移动计算 不足: 对说话人、说话方式、说话内容的适应能力要大大增强 键盘输入 联机手写输入 语音输入 自动识别输入 字符信息的输入 人工输入 优点: 自然,方便,适合移动计算 不足: 对说话人、说话方式、说话内容的适应能力要大大增强 识别速度和正确性还需大大提高

文字符号输入计算机的方法 数字文本 纸介质文本 文本的映象 扫描仪 OCR (image) 识别率已达到98% 功能: 简、繁体字混合识别 中文、西文混合识别 文字、表格混合识别 智能校对功能 印刷体识别 键盘输入 联机手写输入 语音输入 自动识别输入 字符信息的输入 人工输入 扫描仪 OCR 数字文本 纸介质文本 文本的映象 (image)

文字符号输入计算机的方法 技术上非常困难,还无法实用 目前准备先突破工整的楷书手写体的识别! 印刷体识别 手写体识别 键盘输入 联机手写输入 语音输入 自动识别输入 字符信息的输入 人工输入 技术上非常困难,还无法实用 目前准备先突破工整的楷书手写体的识别!

汉字的键盘输入 汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” 优秀的汉字键盘输入编码应具有的特点: 易学习、易记忆 效率高(平均击键次数较少) 重码少 容量大(可输入的汉字字数多)

汉字键盘输入方法的比较 类型 原理 举例 优点 缺点 数字 编码 使用一串数字来表示汉字 电报码 区位码 仅使用10个数字键 难记忆 字音 把汉语的拼音作为汉字的输入编码 智能ABC 紫光 微软拼音输入 简单易学,适合于非专业人员 重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用 字形 把汉字的部件或笔画作为码元,按照汉字结构及其切分规则作为编码依据,确定每个汉字的输入代码 五笔字形 表形码 郑码 重码少、输入速度较快,适合于专业录入员、打字员使用 缺乏统一的规范,编码规则不易掌握 音形 (或形音编码) 采用字音及字形两种属性作为码元的汉字编码输入方法 粤音输入法 同上 同时要掌握音、形两种取码方法或规则,对普通用户比较困难 手写汉字识别速度:每秒12字以上。可识别字数:符合GBK和国标GB18030要求,可识别简体字、繁体字、异体字、英文、数字、日文假名及各种符号近三万字。正识率:工整字95%;自由字90% 使用语音输入文本的系统也叫做“听写机”或“语音打字机”,最高目标:非特定人大词汇量的连续语音识别技术 汉字OCR识别率已达到98%,专业使用应达到0.0x %数量级。其他功能:简、繁体字混合识别;中文、西文混合识别;文字、表格混合识别 脱机手写汉字识别现状:先突破工整的楷书手写体识别

5.1.4 文本的编辑与排版

复习:使用Word的操作流程 创建新文档或打开老文档 文稿输入 编辑 排版 文档存盘、打印或发送 输入中西文字、符号和图表 进行增、删、改操作,保证文本的正确性 排版 满足清晰、美观、便于使用等要求 文档存盘、打印或发送

文本编辑(text editing) 目的:确保文本内容正确无误 操作:对字、词、句和段落进行添加、删除、修改等操作 MS Word的功能: 在文本的任何位置都可以插入新的文字 从文本的任何位置都可以删除不需要的文字 将一段文字从一处移动到另一处 将一段文字从一处复制到另一处 在文本中自动查找指定的词语 用一个词语自动替换文本中指定的词语

文本排版(格式化) 目的:使文本清晰、美观、便于阅读 操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次: 对字符格式进行设置 对段落格式进行设置 对文档页面进行格式设置

设置字符的格式 Demo1 字号(八号 → 初号, 5磅→72磅以上) 1磅相当于1/72英寸 字体(宋体、楷体、黑体、仿宋、隶书···) 字号(八号 → 初号, 5磅→72磅以上) 1磅相当于1/72英寸 字体(宋体、楷体、黑体、仿宋、隶书···) 字符的修饰 字符的形状(字形):正常、加粗、倾斜、加粗倾斜 字形的修饰:下划线、着重号、上下标、删除线··· 字符的颜色 字符的宽度 字符的间距 字符的效果 字符的排列方向 Demo1

设置段落的格式 Demo2 什么是段落?用“回车”相互隔开的一组文字 段落格式的设置: 段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐) 段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进) 段间距和段内行距 使用编号和项目符号 段落添加边框和底纹 首字下沉或悬挂 段落与分页的关系 Demo2

控制段落的缩进 段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示 左缩进标记 首行缩进标记 右缩进标记 右缩进 左缩进 首行缩进 正文区 右边界 左边界 悬挂缩进标记

设置页面的格式 页面格式的设置: 设置纸张大小和页边距 设置每页的行、列数目 设置分栏数目与格式 设置页码 设置页眉和页脚

设置页面的分栏

提高操作效率的若干措施 “所见即所得”(操作效果立即可见,且打印结果与屏幕所见相同) 撤销(undo)和恢复(redo)操作 格式刷 多种视图(大纲视图与大纲编辑) 自动更正、自动套用格式、自动编号、自动图文集 ······ 自动保存功能和自动备份功能 样式、模板和向导(wizard)功能 宏操作(Macro)

文本处理初步

什么是文本处理? 字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理 文本处理内容: 字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 自动分词,词性标注,词义辨识,大陆/台湾术语转换 关键词提取,文摘自动生成,文本分类 文本检索(关键词检索、全文检索),文本过滤 文语转换(语音合成),文种转换(机器翻译) 篇章理解,自动问答,自动写作等 文本压缩,文本加密,文本著作权保护

例:Word 2003的文本处理功能 英文拼写检查和英语同义词检查 字数统计 自动编写摘要 中文简繁体转换和术语转换 中英词语翻译 语法和格式检查 语音识别(口授命令和听写) 文档保护(防止打开或修改文档)

附:关于文本检索 将文本按一定的方式进行组织、储存、管理,并根据用户的要求查找到所需要的文本,称为“文本检索” 文本检索系统的组成和工作流程: 给出查询要求,如标题是什么、作者是谁、属于哪一类、所包含的关键词等 提问词可以使用“与”、“或”、“非”等逻辑运算进行组合 对每一文本生成索引 索引的结构为:索引标识+相应的地址 索引标识可以是文本的标题(主题)、作者、分类、关键词等 文本库 索引数据 标引 匹 配 结果分析、排序 提 问 ① ② ③ ④ ⑤ ⑥ 由检索软件将查询要求与索引数据进行匹配,找出与查询要求相关的文本的地址; 经过分析后,按照与查询要求的相关程度(从高到低排序)返回给用户 系统按地址从文本库中取出对应的一组文本,返回给用户

对文本检索系统的评价 效果 效率: 检索速度 其它: 易用性等 精度: 返回结果中相关的文本占返回总数的百分比 召回率: 返回结果中相关的文本占全部相关文本的百分比 效率: 检索速度 其它: 易用性等 全部文本 返回文本 所有相关文本

Web信息检索是文本检索的特例 也称为搜索引擎,例如Google、Yahoo、Alta Vista、Infoseek、新浪、天网、百度等。 系统结构: 预先使用软件robot遍历Web,将Web上的信息下载到本地文档库 用户提出检索请求时,搜索引擎通过检查索引找出匹配的文本(或URL地址)并返回给用户 对文本内容进行自动分析并建立索引

5.1.5 文本的展现(输出)

文本的展现(输出) 目的:阅读、浏览或打印文本 使用的软件:文本阅读器/文本浏览器 文本展现的过程: 嵌入在文本编辑(处理)软件中,如微软的Word, 独立的软件:如Adobe公司的Acrobat Reader,微软公司的IE等 文本展现的过程: 对文本的格式描述进行解释 生成文字和图表的映像(bitmap) 传送到显示器或打印机输出

附:输出过程中字形的生成 过程: 2种不同的字库: 点阵描述 轮廓描述 先根据字符的字体确定相应的字库(font), 再按照该字符的代码从字库中取出该字符的形状描述信息 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换 最后将变换得到的字形放置在页面的指定位置处 2种不同的字库: 轮廓点 点阵描述 轮廓描述 直线 二次曲线

5.1.3 文本的分类与表示

简单文本(纯文本 ) 没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是 .txt 由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息 举例: 本 书 由 南 京 大 学 出 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 版 社 ( P u b l i s h i n g B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 H o u s e o f N a n j i n 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E g U n i v e r s i t y ) 出 版 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文本的内容 文本在计算机中的表示

本书由南京大学出版社(Publishing House of Nanjing University)出版 丰富格式文本 有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本” 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。 举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中 本书由南京大学出版社(Publishing House of Nanjing University)出版 使用HTML语言描述为: <p align="center"><font face="黑体">本书由南京大学出版社</font><font face="Arial Black">(Publishing House of Nanjing University)</font><font face="黑体">出版</font></p> 用一对< >指出的是标记,如<font face=“黑体”> 和 </font>等,用于说明排版的格式和文字属性,它们不属于正文内容 正文内容

超文本 若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本” A B C D E F G H a1 a2 b2 文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频 超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等 “超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分

小结:文本的分类 文本 类型 特点 在计算机内的表示 文件 扩展名 用途 简单 没有字体、字号和版面格式的变化,文本在页面上逐行排列,也不含图片和表格 由一连串与正文内容对应的字符的编码所组成,几乎不包含任何其他的格式信息和结构信息 .txt 网上聊天 短信 文字录入 OCR输入 丰富 格式 文本(线性文本) 有字体、字号、颜色等变化,文本在页面上可以自由定位和布局,还可插入图片和表格 除了与正文对应的字符编码之外,还使用某种“标记语言”所规定的一些标记来说明该文本的文字属性和排版格式等 .doc .rtf .htm .html .pdf 公文 论文 书稿 网页 文本(超文本) 除上述特征外,文本中还含有超链,使文本呈现为一种网状结构 同上,但还应包含用于指出“链源”和“链宿”的标记 .hlp 同上,以及软件的联机文档(帮助文件)