网络数字化学习资源内容管理
报告内 容 一、网络学习资源的类型和存在形式 二、网络学习资源的分布调查 三、网络学习资源的内容特征提取 四、基于内容特征的网络学习资源检索 五、在基础教育中应用初探
一、网络学习资源的类型与存在形式 教学资源建设是教育信息化的基础。根据《教育资源建设规范(CELTS-41)》对教育资源的分类原则,我们将网络数字化学习资源分为14类:网络课程、网络课件、课件、图片、视频、音频、动画、文献资料、试题、试卷、案例、教案、常见问题解答和资源目录索引。
一、网络学习资源的类型与存在形式 学习资源在网络中有些以专题性网站形式集中存在,如数字图书馆、中国教育资源网、数字化学习资源中心等,有些以零散的网站、网页、文档、媒体素材等形式分散存在于各类网站网页中。
一、网络学习资源的类型与存在形式 在因特网中,信息的基本存储单元是文件。学习资源在因特网中也是以文件的形式存在。我们将网络学习资源使用的文件类型分为13类:网站、网页、文档、表格、图像、视频、声音、动画、幻灯、程序、压缩文件、数据库、虚拟现实等。
网络学习资源可能使用的文件类型
11种文件类型在网络中常用的文件格式 文件类型 文件格式 网站首页 html htm shtml asp aspx php jsp xml cgi 网页 文档 txt doc docx wps pdf rtf caj 表格 xls xlsx 图像 bmp jpeg jpg gif png tif tiff psd 视频 avi wmv flv asf mov rm ram mpg mpeg mp4 声音 wav mp3 nsf wma 动画 swf gif 幻灯 ppt pptx pps ppsx 程序 exe 压缩文件 zip rar iso msi
二、网络学习资源的分布调查 在网页中,学习资源主要以链接和嵌入两种形式存在。链接是指利用网页中的锚点建立的超链接,在浏览器中点击即显示或下载链接的网页或文件。嵌入是将学习资源作为网页的组成元素直接嵌入到网页中,可以直接浏览或下载,如网页中的图像、Flash等。 根据我们对474个教育网站中4,865,663个网页分析,发现平均每个网页有链接128个,嵌入20个。
二、网络学习资源的分布调查 我们将中国网站排名网中访问量最高的474个教育网站分为14类,加上从网站首页链接的相关频道网站,共3176个,按宽度优先原则遍历式搜索至第3层,共搜索网页4,865,663个,其中有链接624,196,259个,嵌入96,235,793个。从中抽样129,946个链接文件,37,979个嵌入的图像、Flash 文件,共组成167,925个样本文件进行人工内容分析,识别是否是学习资源,若是则进一步分为哪类学习资源。
教育网站类型和链接、嵌入的文件数量 教育网站类型:1.教学资源;2.高等教育;3.课件论文;4.远程教育;5.基础教育;6.成人教育;7.职业教育;8.幼儿教育;9.语言教育;10.高校与研究所;11.地方教育组织;12.考试;13.培训;14.其它教育网站;15.合计;16.比例
各类教育网站中抽取的样本数量和比例
各类教育网站中样本所在网页类型的数量和比例
14类教育网站中各类学习资源的数量和比例
各类学习资源采用的文件类型的数量和比例
各类学习资源的比例
各类教育网站的样本中学习资源的比例 其中(a)为包含资源目录索引,(b)为不包含资源目录索引。
各类文件类型的样本中学习资源的比例 其中(a)为包含资源目录索引,(b)为不包含资源目录索引。
网络学习资源初步调查结果 网络数字化学习资源目录索引、文献资料占很大的比例,而教育工作者和学习者可能最感兴趣的网络课程、网络课件、课件、动画、教案等学习资源较少,今后仍然是网络学习资源建设的重要工作。
三、网络学习资源的内容特征提取 教育信息化技术标准教育资源建设技术规范信息模型(CELTS-41.1)对教育资源的属性进行了规范描述,包括三部分:基本的属性描述、可选的属性描述和不同资源特色的属性描述。
三、网络学习资源的内容特征提取
三、网络学习资源的内容特征提取
三、网络学习资源的内容特征提取 在教育资源管理系统中,对于小型数据库人工填入各属性的描述值工作量不大,但对网络中海量的教育资源管理,需要使用大型数据库,数据库中教育资源属性值的填入人工难以完成,需要利用计算机程序自动填入,这涉及网络教育资源属性的自动提取。
三、网络学习资源的内容特征提取 教育资源在网络中通常以文件形式存在,包含两方面的属性:文件属性和内容特征。 文件属性包括文件名、文件格式、文件大小、建立时间、URL、关联网页的URL等。内容特征指教育资源本身包含的主题、结构和低层的视、听觉特征等。
三、网络学习资源的内容特征提取 教育资源的文件属性和主题特征可以从Web网页的相关文本和文件参数中提取。 Web网页是用HTML、XML等编制的文本文件,由标记(Tag)、脚本(Script)和用来表示信息的文本组成。教育资源通常以独立的文件形式嵌入在Web网页中或通过锚点链接。通过分析Web网页中教育资源的相关文本和标签的属性值,可以提取教育资源的主题、文件名、格式、大小、URL 以及文件的元数据等。
三、网络学习资源的内容特征提取 Web网页的分析主要包括标记分析、网页结构和内容分析。通过网页结构内容分析,完成网页的区域分割与识别,然后根据多媒体相关文本的分布特点,采用了个体级、区域级和网页级三级分析方法进行提取,有效地适应了复杂多变的Web网页。 教育资源的主题、关键词、简介等文本信息提取需要利用自然语言处理技术提取。
三、网络学习资源的内容特征提取 …… Web网页中与教育资源相关的Html标记有: ① 字符集属性标记 ② 网页标题标记 ③ 网页内容描述关键词 ④ 超链接标记 ⑤ 表格标记 ⑥ 图像嵌入标记 ⑦ 视频嵌入标记 ⑧ Flash嵌入标记 ……
三、网络学习资源的内容特征提取
三、网络学习资源的内容特征提取
三、网络学习资源的内容特征提取
三、网络学习资源的内容特征提取 教育资源的内容特征,如结构特征、视觉特征、听觉特征等,需要通过教育资源的内容分析程序自动获取。如声音的内容特征提取、图像的内容特征提取、视频的镜头结构特征提取、Flash动画的场景结构特征等。
1.声音的内容特征提取 声音包括语音、音乐、自然声音等。声音的内容特征提取,最简单方式是直接从音频数据中提取时域、频域和时频特征。在实际操作中,往往把一个声音分成若干个音频帧,然后从每个音频帧中提取如短时能量、过零率和mel系数等特征,最后把这些特征的统计特征(如均值和方差等)计算出来,作为声音的特征向量。
音频的内容特征提取 声音的波形和频谱图 时域特征 频域特征
声音的内容特征提取 声频图
主体特征(颜色、纹理、轮廓、姿态、位置、大小、方向、位置关系等) 2.图像的内容特征提取 图像的内容特征一般认为有低层的视觉特征、中层的对象特征和高层的语义特征。 语义特征(场景、行为、情感) 图像内容的层次结构 视觉特征(颜色、纹理、形状) 主体特征(颜色、纹理、轮廓、姿态、位置、大小、方向、位置关系等) 高层 中层 低层
数字图像分类体系( http://210.44.4.10/cbxy/txfl/index.asp) 图像的分类 数字图像分类体系( http://210.44.4.10/cbxy/txfl/index.asp)
最多提取8个极大值,对应的颜色即为图像的主色调 图像的主色调提取 HSV空间均匀量化 计算图像颜色直方图 最多提取8个极大值,对应的颜色即为图像的主色调 原图 用主色调对图像颜色聚类
图像的主色调命名 (a)24位真彩色原图 (b) 提取的主色调:黑,暗橄榄绿,液绿,淡紫,棕褐,嫩蓝,红,深红
图像的颜色名与颜色值
图像的纹理特征提取 纹理是物体表面颜色或灰度规律性分布或变化的表现。
几种典型纹理图例
图像分割与形状特征提取
图像分割与形状特征提取
常见基本形状分类
3.视频的镜头结构特征提取 ... 视频是连续的图像序列,根据图像序列的内容分割成故事(场景)、分镜头和帧(图像)。 视频 帧图像 故事 1 故事 2 故事 N ... 镜头 1 镜头 2 镜头 M 视频 帧图像
视频的镜头结构特征提取 两个关键技术:镜头分割与镜头分类。 我们用双帧差颜色检测镜头转换,并区分切变镜头和渐变镜头(特技效果)。根据镜头中关键帧的颜色数区分拍摄镜头和创作镜头。根据关键帧的边缘模糊度区分拍摄镜头的全景镜头和特写镜头。 镜头分类对检索特定的镜头很有用。在教学视频中,动画片段、PPT幻灯片等常常识别为创作镜头,教师画面常常为特写镜头,而教学场景常常为全景镜头。
视频的镜头结构用关键帧动画表示 关键帧动画是用视频镜头的代表帧组成的GIF动画,用于显示视频的主要画面内容。由于每个镜头内场景变化不大,用一个关键帧即可表示镜头的基本画面。因此,所有镜头的关键帧组成的GIF动画可以反映视频的大致内容。 邓小平84年视察深圳的视频片段
4.Flash动画的场景结构特征提取 Flash动画是一种半结构化的多媒体形式,包含了图形、文本、位图、声音、视频等组件,而且具有交互、同步控制等。
Flash动画的场景结构特征
四、基于内容特征的网络学习资源检索 基于内容特征的网络学习资源检索系统结构图
1.图像检索
图像检索结果
2.视频检索
视频检索结果
3.Flash动画检索
Flash动画检索结果
五、在基础教育中应用初探 以中小学课本中提取有关的主题词,建立了高中语文、数学、物理、化学、生物;初中语文、数学、物理、化学、生物;小学语文、数学、科学、社会、思想品德与生活等15个基础教育教育资源(图像、视频、声音和Flash动画)检索系统(http://www.cbxy.sdnu.edu.cn/cbxy/WebRetrieval/index.asp)。
中小学网络教育资源检索系统界面
谢谢各位! 请多提宝贵意见!