基于书签的校园搜索引擎 Web 2.0时代的网络收藏夹.

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
LOGO 三年二班主题班会 我们的节日 —— 清明节. LOGO Page  2 《英 雄 赞 歌》 鲜花 象灿烂的火把燃烧在眼前 …… 五星红旗 象熊熊的烈焰映红了苍穹 …… 面对庄严的墓碑 我们心如潮涌 面对先烈的英灵 我们热泪盈眶 …… 耳边,仿佛还震荡着激烈的枪炮声 眼前,好像还弥漫着战斗的浓浓硝烟.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
2017/2/ /2/25 1 公職考試與證照考試簡介 考選部 1.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
聞一多詩集導讀-- 《死水》與《紅燭》 系級/組別:森資一 第五組
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
区域教育信息中心工作的思考与探索 ----抓好应用建设 提升服务水平.
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
公司保密工作要求及 院商秘保护工作安排 2014年9月12日.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
105學年度國民中學技藝教育 專案編班申辦說明會
比亚迪集成创新模式探究 深圳大学2010届本科毕业论文答辩 姓名:卓华毅 专业:工商管理 学号: 指导老师:刘莉
如何撰写青年基金申请书 报 告 人: 吴 金 随.
点击输 入标题 点击输入说明性文字.
國際志工海外僑校服務 越南 國立臺中教育大學 2010年國際志工團隊.
痰 饮.
學分抵免原則及 學分抵免線上操作說明會.
教 学 查 房 黄宗海 南方医科大学第二临床医学院 外科学教研室.
评 建 工 作 安 排.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
“十二五”国家科技计划经费管理改革培训 概预算申报与审批 国家科学技术部 2012年5月.
首都体育学院 武术与表演学院 张长念 太极拳技击运用之擒拿 首都体育学院 武术与表演学院 张长念
现行英语中考考试内容与形式的利与弊 黑龙江省教育学院 于 钢 2016, 07,黄山.
第5讲:比较安全学的创建 吴 超 教授 (O)
彰化縣西勢國小備課工作坊 新生入學的班級經營 主講:黃盈禎
重庆市西永组团K标准分区基本情况介绍.
西貢區歷史文化 清水灣 鍾礎營,楊柳鈞,林顥霖, 譚咏欣,陳昭龍.
保良局何壽南小學 使用牙膏對我們生活的影響 六年級專題報告 姓名﹕李燊樺 班別﹕6B 日期﹕
产业化经营项目 申报材料的编制审核 李峰晖 2010年10月.
中國歷史人物武則天 G組組員 韋紫恩, 余詩琪 蔡煦齡, 黃榮紳,.
广州医学院图书馆 医学文献检索教研室 课堂讲授: 课件制作:邓小茹
大肚宮廟巡禮.
国开学习网/形考模块
Service providing/consuming and Renovation
生源地信用助学贷款系统 操作培训课件 福建省农村信用社联合社 张健明 2014年6月30日 共1-78页.
SOA模型设计 杨子 2009/09/30.
綠色食品的銷售前境 此專題習作乃是我組嘔心瀝血的作品 , 保證史無前例 . 如在任何地方見過此雷同習題 . 請認定他是抄我們的!! 因為呢個電腦部分係全權由全組最精於電腦個個負責! 絕無可能流出市面!! 想知我個組有邊個!? 睇落去就知!
教學輔導教師 認證資料繳交說明 認證申請期間:108年4月10日至108年6月30日 請教師自行確認符合各項取證資格再行送件.
閱讀調查- 書本不敵網路魅力 102王婉汝、莊雅鈞.
不动产统一登记信息系统简介 长沙力智数字房产技术发展有限公司.
機構督導: 范盛翔 督導 實習生: 佛光大學社會學系江佳穎 實習日期: 7/1(二)~8/29(五)
操場 操場 本校各處室位置圖說明 本校各處室位置圖說明 經營大樓 經營大樓 綜合大樓 綜合大樓 操 場 操 場 校門口 校門口
Presentation transcript:

基于书签的校园搜索引擎 Web 2.0时代的网络收藏夹

当前校内资源的特点 随着数字校园的全面推进,大大小小总共千余个应用系统纷纷上线。 越来 越多 想查找一个资源十分困难,比如学籍制度,就必须知道归口部门的网站才能逐级找。 查找 困难 任何一个地址变化,都必须修改校内各大 门户的链接,才能确保正确性。 维护 麻烦 国防科技大学信息中心

黄页式的寻找 国防科技大学信息中心

提出问题 。如何在不知道资源所属网站的情况下找到它? 。如何迅速地定位到所需的资源? 。如何将链接管理的任务从管理员交给用户们? 。如何才能不再面临主页上满屏幕的导航而眼花? 。如何在不知道资源所属网站的情况下找到它? 。如何迅速地定位到所需的资源? 。如何将链接管理的任务从管理员交给用户们? 国防科技大学信息中心

搜索引擎的引入 随着网络在教学、科研、管理等多方面应用的开展,信息的查找和定位变得更为困难。为了解决这个问题,目前一般采用和通用搜索引擎类似的方法来进行搜索。但是两者的使用环境和适应情况具有很大的差别,通用搜索引擎并不能够很好地胜任校园应用搜索的任务。 根据部分统计结果,校园网络的数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据形式存放在网络计算机系统中的各个角落。由此,如何方便、快捷、安全地获取内部网络的信息内容,造就了一个新的应用“校园搜索引擎”。 国防科技大学信息中心

不分类型。比如搜索“教务处”,那么不管链接、新闻、文件,只要带有关键词的文本全部都堆砌起来,让用户找去吧! 传统搜索引擎的缺陷 不分类型。比如搜索“教务处”,那么不管链接、新闻、文件,只要带有关键词的文本全部都堆砌起来,让用户找去吧! 不分轻重。不区分哪些链接是用户所感兴趣的,往往将无人关心的一些新闻也堆放到关键位置,从中想要找到有用的东西,不亚于从乱石堆里找宝,很辛苦。 搜索深度。搜索引擎往往遍历整个网站,将全部内容搬运到服务器上,虽然全面却深度太深,服务器长期超负荷运作,经常硬盘溢出。 解决:学习Google PageRank,让用户做主 国防科技大学信息中心

通用搜索引擎和校园搜索引擎对比 通用搜索引擎 校园搜索引擎 搜索范围 整个Internet网络 局限于校园网络内部 搜索对象 网页、图像、mp3等多种类型的文件 内部知识库、帮助文档、源代码信息库、部门门户新闻等,包含网页、公开邮件、DOC文档、PDF文件、图表、报告等 搜索特点 尽量完全性,为用户提供尽可能丰富的搜索结果 专业、定向的搜索,更为注重结果的准确性和高度匹配性。 排序方式 入站链接数量,以及广告费投放数量 用户关心程度 用户参与 参与不多 尽量让用户参与 国防科技大学信息中心

互联网通信协议。以HTTP为主获取HTML网页和特殊格式文档(DOC、PPT、PDF、MP3、图像等)。 通用搜索引擎 校园搜索引擎 异构资源搜索和整合 互联网通信协议。以HTTP为主获取HTML网页和特殊格式文档(DOC、PPT、PDF、MP3、图像等)。 校园内部的各种信息采集接口,包括HTML/XML(HTTP)、RDBMS(API/SQL)、文件系统(NFS/FTP)、Lotus等。 数据的更新 数据更新的周期较长。对静态缓存进行索引,周期性地进行切换和更新。 需要尽量迅速地反映最新的信息更新,动态刷新索引,以保证数据的一致性。 准确性 无法完全包括,相关重要性排序以Page Rank、Title、Meta为主,面临SEO问题和商业性因素 更为全面,精确计算,字词混合索引,符合元数据查询(结构化),更为准确,受商业化影响较低,排序更合理。 安全性 公开信息,一般不存在安全问题 需要对访问权限进行控制,受限内容不纳入搜索 管理、挖掘和应用 找到信息后即可 需要完备的整合和管理,进行智能的挖掘和分析,面向内部需求提供个性化服务。 国防科技大学信息中心

和搜索引擎使用关键词为主的搜索不同,在校园搜索引擎中需要借鉴社会化网络的书签(Tag,又称标签)。 社会书签的引入 和搜索引擎使用关键词为主的搜索不同,在校园搜索引擎中需要借鉴社会化网络的书签(Tag,又称标签)。 社会书签(Social Bookmark)可以将网站随时加入自己的网络书签中;用多个关键词标示和整理书签,并与人共享;是2004年起Web出现的一种新的内容标引方法。 相对于专业的编目和用户提供元数据的现行方式,社会书签以其方便实用而备受人们的关注和喜爱,被认为是下一代的Web信息基础设施。 国防科技大学信息中心

事物的多面性使Tag必要 某年月日在大围山鹿场拍摄的风景相片,和同事张某一起 大围山 某年月日 张某 梅花鹿 分门别类 准确找到 国防科技大学信息中心

网站同样具有各种相关性 一卡通业务管理系统 (申办、挂失、查询消费、门禁) 食堂 (吃饭) 图书馆 (借书) 信息化 (数字校园) 广泛联系,只要有用户 认为相关即可找到 食堂 (吃饭) 图书馆 (借书) 信息化 (数字校园) 信息中心(办卡) 但它们在这些Tag中 关联度是不一样的 国防科技大学信息中心

用户不希望非得记忆系统的网址,而是希望只要用户认为存在相关就应该可以找到。 书签和关键词的区别 用户不希望非得记忆系统的网址,而是希望只要用户认为存在相关就应该可以找到。 当然这些书签的关联度是不一样的,也就是说各个系统在书签中的重要程度不一样。 关键词更是标注内容的主题,而书签则是在对内容的个人理解上的私人标注,未必针对的是主题,比如书签可能是时间,也可能是编号。 书签的设定要比关键词更自由,更方便,书签就是自己关注/存储内容的坐标或名称。 国防科技大学信息中心

Web 2.0的理念 IT,重要的是“I”而不是“T” 用户参与 共享 开放 用户体验至上 用户的角色不再只是浏览者,也成了信息的提供者。 新应用注重用户之间的信息共享,而不是只有信息提供商将信息提供给用户。 开放 信息提供商通过API提供网站信息及功能的互操作。 用户体验至上 新应用使用户得到了从未有过的全新的用户体验 IT,重要的是“I”而不是“T” “Information Technology”里注重“Information”,而不是“Technology”,“Technology”只是手段。 国防科技大学信息中心

数据是下一个Intel Inside,核心价值所在 Web 2.0的设计模式 用户添加价值 用户越多,服务越好 依靠大量数据和相关性算法提供更好更准确的服务 典型应用 内容管理。 Google PageRank, WikiPedia,豆瓣 个人门户。 eBay,Amazon,淘宝,各种博客 协作式垃圾信息过滤产品。 Cloudmark,QQMail 数据是下一个Intel Inside,核心价值所在 价值在于“infoware”,而不是“software” 创建大型数据库的三种方式 付费给专人。Yahoo! 依靠开源社区的志愿者。WikiPedia 用户增加价值。Google, del.icio.us,豆瓣 国防科技大学信息中心

同义词词库 书签搜索不能像算法搜索那样全面、有涵盖性。书签不是分类和组织网络的万能药,使用得当,书签可以很好地描述网站的内容。但是语言固有模糊性和不明确性—语言有多种意思,人们对同样的文字有不同的理解。 同义词搜索在功能上分为:精确匹配和模糊匹配。区别在于,前者的同义词词库完全建立在权威的《辞海》上,后者则尽可能多地收录生活世界日常语言里的同义词。因此,有必要做两个同义词词库。当然引进同义词搜索的前提是,不能降低搜索结果的相关性。 国防科技大学信息中心

自动分词从检索错误来看,情况相当复杂,涉及中文自动分词的各个方面,包括: 交叉歧义(如“研究生态学理论及应用”) 书签的来源:自动分词 自动分词从检索错误来看,情况相当复杂,涉及中文自动分词的各个方面,包括: 交叉歧义(如“研究生态学理论及应用”) 组合歧义(“推动以人为本的教育”) 中国人名(如“山东安百合律师事务所”) 外国人名(如“海伦和约翰”、“介绍酒井法子”) 中国地名(如“泌阳县双庙街乡”) 外国地名(如“埃及和约旦”) 机构名( 如“掌天气功疗法中心”)等。 其中有的情形通过简单的规则可以解决(如“及第”,如果后面紧跟数词,一般应分开),但大部分情形并不容易对付,甚至在WWW环境下,连到底会遇到多少类似的情形都不可能预测出,更别说有效解决了。经验告诉我们,不管投入怎样的努力,分词系统永远不可能在开放环境下达到完美境界——这意味着再健壮的中文分词系统,在处理真实文本时也会不可避免地发生某些不可预期的错误。 国防科技大学信息中心

书签的来源:手工分词 手工添加书签是反映用户喜好的一种重要方式。在Web 2.0的理念中,十分强调用户的参与。用户的角色不再只是浏览者,也成了信息的提供者。这一点在博客中表现得十分突出,对于网络书签更是如此。 用户将自己认为重要的相关书签添加到搜索引擎中,将自己喜好的收藏夹提供给其他人共享。应用注重用户之间的信息共享,而不是只有信息提供商将信息提供给用户。 国防科技大学信息中心

搜索结果的排序 采取用户点击率作为“投票”的机制,让在某个书签中搜索得到的网址根据点击量从多到少排序,从而使得最多点击量的网址自动排名靠前,体现了用户的参与。 同时,为用户提供一个“举报”机制,也即当发现某个书签搜索的结果中某个网址并不合适,就可以投票将它剔除出去。这个机制能够有效抵御伪造书签和错误网址等情况,通过排名的不断下降而逐渐将其排除。 国防科技大学信息中心

投入使用后的可能现象 可能存在的问题 读者不知道,不了解,不明白tag 用户需要第一推动力 对读者宣传和推广 帮助系统 其他 思考: 读者不知道,不了解,不明白tag 用户需要第一推动力 对策: 对读者宣传和推广 帮助系统 其他 国防科技大学信息中心

下一步的工作 在【科大书签】之后,我们将进行更多的Web 2.0努力,这将需要更多的研发力量支持。 内容将会牵涉到比较深入,比如 汉语分词、书签自动提取、RSS订阅、用户行为分析、社会化网络、个性化门户、SOA 等。 基本框架实现途径将会是 C#和ASP.NET 2.0,通过Web Services和数字校园无缝融合。 并且,我们也盛情邀请您参与到这个开发过程,让涓涓细流汇聚成河。诚邀您的加入! 国防科技大学信息中心

Thank You ! 国防科技大学信息中心 邓劲生