自然语言处理的若干问题研究 哈尔滨工业大学 王晓龙 电话:

Slides:



Advertisements
Similar presentations
西南政法大学图书馆 江波 重庆. 传统图书馆自动化图书馆复合图书馆数字图书馆  图书馆为图书流通服务所制定的相关规则,包 括图书流通类型、读者类型、读者可借阅图书 数量、可借阅时间、可续借时间、可续借次数、 可预约数量等。
Advertisements

行政院原住民族委員會 法規暨訴願審議委員會 102 年度原住民身分法實例演練講習: 原住民身分認定及救濟程序.
1 南郭國小 翁正雄 95/06/09 教育部健康醫學學習網傳統醫 學學習館交流研習 資料來源:教育部六大學習網及簡介 健康醫學學習網及簡介.
本校自民國 78 年於顏前校長世錫任內創設本系 設立鑑識科學學系大學部,專責鑑識人才之培養, 為目前國內唯一專門培育鑑識科學人才、研究鑑識 科學學術之大學學系,設系剛滿 20 年。自 85 年於姚 前校長高橋任內,設立鑑識科學研究所招收碩士生 ,民國 88 年於謝前校長瑞智任內先後獲內政部、教.
教務處註冊組 /7 (二) 10 : 00 至 15 : 00 止 ★ 6/8 彙整報名資料後, 6/9 向高中承 辦學校報名 ★ 因校內作業時間緊迫,逾時恕不 受理。 校內報名時間.
第二节 基因在亲子代间的传递. 1. 什么叫做遗传? 2. 什么叫做性状? 3. 性状是由什么决定的?
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
2010 新聞局影視幕後人才培訓課程 電視節目的類型解析 講師:高光德教授. 電視節目主要類型  新聞氣象節目  體育節目  綜合娛樂節目.
第二章:生物科學與食品 第三節:基因改造食品.
三水区安监局 企业安全用电 2013年4月.
耶穌 (願主賜他平安) 在伊斯蘭教的地位.
第三章 现代教育与人的发展.
企业价值收益法评估 ----财务报表调整 主讲人:阮咏华 1.
绿 色 植 物 在 家 庭 居 室 空 气 污 染 控 制 中 的 作 用 小组成员:.
夯实基层 创新进取 大力践行医药卫生体制改革 丽水市卫生局 黄 刚
广西师范大学教科院马佳宏 电 话 0773- (O) 高校教师资格认定考试的若干事项 广西师范大学教科院马佳宏 电 话 0773- (O)
第四章 心理健康.
第21课时 生物圈中的微生物 考 点 聚 焦 专 项 突 破 1.
國民中學 自然與生活科技 第二冊 第3章 生殖 3-1 細胞分裂 3-2 無性生殖 3-3 有性生殖.
职 业 礼 仪 讲师:刘巍女士.
右腦最佳開發時期是3歲到13歲 人的左腦最佳開發期是18歲到25歲
第三节 灰树花栽培技术 主讲 段鸿斌.
开展优质护理服务 落实重患护理 沈阳市第四人民医院 姚军.
学校核心发展力 上海市建平中学 程红兵.
亚洲国家一流大学建设的国际化道路: 体制改革的视角
李建民 教授 北京百川健康科学研究院 脊柱健康技术研究中心
必修二 生物 (人教版).
想一想 议一议 P74 我们常吃的蘑菇有根、茎、叶吗? 它们的生长是否需要光? 为什么说它们是真菌而不是植物呢?
三次科技革命 学习目标: 1.知道三次科技革命的时间、标志、发源地、理论基础、主要成就、主要特点及影响。 2.培养归纳历史知识的能力
健康上网 初一3班 王诗婷.
我的学校——达县职高 制作人——高一计算机应用二班王天.
第八章 网络课程的设计与开发.
绪 论  珍惜大学生活 开拓新的境界.
第十一章 真理与价值 主讲人:阎华荣.
三大自然区的内部差异 地理 全日制普通高级中学教科书(选修) 第二册 人民教育出版社地理社会室 编著 人民教育出版社 关于.
王永慶遺產分配 第三組民法報告 4970T011 劉昭妤 4970T037 吳品怡 4970T090 袁如意
台南在地美食文化介紹 台南市鳳凰城文史協會 理事長 歐財榮.
一、作者概說:    王壽來,民國三十八年生,山西省 五臺縣人,中興大學 法律系畢業,美國 喬治城大學碩士、臺灣師範大學 美術研究所碩博士。長期從事文化與外交工作,現任文建會 文化資產總管理處籌備處主任。   王壽來靈感多取自生活經驗,善用中外名言,描繪人生百態。著有《公務員快意人生》、《藝術‧收藏‧我》、《公務員DNA》、《和世界偉人面對面》等書。
所羅門王的指環 班級:J106 座號:32 姓名:鐘唯禎.
导入新课 波能绕过障碍物产生衍射。既然光也是一种波,为什么在日常生活中难以观察到光的衍射现象呢?.
高中生物学必修Ⅰ 分子与细胞 前 言.
第七章 固 定 资 产.
对青少年网络伦理问题的分析 ——应用伦理学课题报告.
关注生物技术的 伦理问题.
互联网时代班主任的挑战 万玮 2014年9月20日.
2015年高考历史质量分析报告 兰州市外国语高级中学 杨彩玲.
东北师大理想信息技术研究院 院长 中国教育软件协会 副主任 英国计算机与自动化学会 顾问
肝功能正常的小三阳注意事项.
突變 突變是指遺傳物質發生改變, 而影響到性狀的表現 例:白化症.
读书报告要求 每人写一篇读书报告。 要求,对学习这门课程之后形成的对计算机科学的一个总的、一般的认识,但不要泛泛而论。
授課大綱 第一章 緒 論 第一節 應用文的意義 第二節 應用文的種類 第二章 書 信 第一節 書信的種類 第二節 書信的結構 第三章 便 條
司法机关.
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
生物五界的分類方式.
鄉村尋根-農具篇.
复旦俄语歌小组的成长历程 (上集) 徐士菊 周德庆 编制 制作 ,以后时有增补 配乐:小路Track 1/83.
五年級 美勞科 美術欣賞 沃荷.
自然科教學觀摩 教 學 者:黃藍萩 教學班級:3年9班 教學日期:
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
耶穌 (願主賜他平安) 在伊斯蘭教的地位.
人是由什么发育而来的? 一个受精卵.
如何检索统计申请与在研项目(科研人员) “科研之友”技术支持小组
新竹縣108學年度第1次國小以上 特殊教育鑑定安置說明會
進修學院與我.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
慈惠醫護管理專科學校圖書館 館際合作使用方法.
非同源染色体:不是同源染色体的两条染色体
“上海市教师教育课程资源共享管理平台” 学分银行操作指南
证据运用 第八章 证据的运用 第一节 证据体系的结构及运用规则.
園區多元智能教育中心 一年級課表 科園、龍山、實小
Presentation transcript:

自然语言处理的若干问题研究 哈尔滨工业大学 王晓龙 电话:0451-86413322 Email: wangxl@insun.hit.edu.cn

主要研究内容 问答系统与问答式检索 多文档自动文摘 智能输入与音字转换 生物信息学 智能化中文信息处理平台

1.问答系统与问答式检索 四个系统 1国内早期的问答系统研究 80年代 针对固定段落 7w 技术路线1 基于理解 技术路线2 基于统计的检索

1.问答系统与问答式检索 2基于问答对的问答系统 问一问:100万句 3专业网站 黑龙江联通网站 4国家863重点项目数字奥运 旅游领域。 国家自然科学基金项目

1.问答系统与问答式检索 国内外研究现状 Mit开发的Start系统 尤里卡搜索引擎 目前国外开发出的一些相对成熟的问答系统包括: AnswerBus系统 国内的研究成果 尤里卡搜索引擎 百度(孙悟空)搜索引擎 问一问搜索引擎

问答式信息检索研究 在每年一度的文本信息检索(TREC)会议上,自动问答(Question Answering Track)是最受关注的主题之一。越未越多的大学和科研机构参与了TREC会议的Question Answering Track。

1.问答系统与问答式检索 问答式信息检索研究 允许用户输入自然语言问句 系统直接返回答案或者蕴含答案的文本片断 符合人的习惯 精确刻画信息需求 系统直接返回答案或者蕴含答案的文本片断 提高信息检索的效率 精确度是问答式信息检索的首要指标

问答式信息检索研究 研究目标 研究基于Web的面向大规模真实网络文本的问答系统 目前为受限领域(旅游领域) 研究高鲁棒性的相关语言处理技术,带动它们向实用化方向发展

问答式信息检索研究 技术路线 用户问句与海量网络语言信息的深层次结构化加工处理 海量语言信息的自动结构化技术 海量网络文档自动分类技术 海量网络文档的摘要生成

问答式信息检索研究 海量语言信息的自动结构化技术 自动分词 词性标注 名实体识别 短语划分 句法结构标注 语义标注

自动分词 词网格分词 采用分类算法解决汉语的交叉歧义和组合歧义 Bigram模型 词网格技术 Viterbi算法 这两项指标在2003年的863评测中名列首位

词性标注 同时支持北大标注集和清华北语标注集 隐马尔科夫模型词性标注 基于触发对的最大熵模型词性标注 目前正在研究粗糙集和最大熵融合的模型 北大1998年6月人民日报语料评测词性标注精确率94.5% 基于触发对的最大熵模型词性标注 北大1998年6月人民日报语料评测词性标注精确率96.5% 目前正在研究粗糙集和最大熵融合的模型 有望将词性标注的正确率提高到97~98%左右

名实体识别 人名、地名、机构名、日期、时间、数字、比例等 人名(中外人名)、地名和机构名是识别的重点与难点所在 基于最大熵模型中文名实体识别 基础模型:最大熵模型 基于转移的错误驱动(TBL)机器学习技术进行名实体识别结果修正 采用特征融合技术解决权值偏执问题 采用Boosting技术解决过拟和问题 最近一次的评测结果如下: 98年人民日报语料测试的结果为:人名:正确率:89.2%,召回率:81.6%,F量度:85.22%,地名:正确率:94.3%,召回率:89.9%,F量度:92.1%,机构名:正确率:85.3%,召回率:63.3%,F量度:72.7%。

短语划分 鲁棒性句法分析策略 级联式有限状态句法分析方法 基于词语搭配的有限状态短语划分算法 优点 缺点 适于处理网络文档(含有大量未登录词、病构语句) 效率较高 处理101,500篇旅游类网络文档耗时4个小时左右。 精度能够满足问答式信息检索的需要 缺点 与现有的句法分析方法在技术路线上完全不同,因此造成评测的困难 缺乏训练机制

海量网络文档自动分类技术 针对文档分类技术本身,研究文档分类技术中的关键技术的创新与融合 特征提取与重构 分类器算法融合 基于期望交叉熵的特征提取算法 以OKAPI权值计算公式对文本进行向量化表示 Semi-Discrete Matrix Decomposition (SDD)算法对文档向量进行语义分析 分类器算法融合 KNN分类算法 支持向量机(SVM)算法 2003年文本分类评测取得了第一名的成绩 评测显示:采用K-NN与SVM算法相结合的文本分类技术,在分类精度上有了进一步的提高。

海量网络文档自动分类技术 研究自动文档分类技术在专业领域问答式信息检索中的应用方法 语义类别的确定问题 文本分类应用策略问题 目前采用人工确定的方法 文本分类应用策略问题 重新排序技术 过滤不相关答案技术

海量网络文档自动分类技术 实验表明,自动文档分类技术在减少候选答案片段的同时可有效提高问答系统的准确率与响应时间,对系统效率有明显的改善。

问题: 单项技术评测 分词、标注、文本分类、文摘 总体评测

2、多文档自动文摘 研究意义 多文档自动文摘目的在于将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要输出。 与单文档自动文摘相比,多文档自动文摘不但达到了“摘要”的效果,而且体现了“信息整理”和“信息融合” ,从而会提高获取信息的效率。 如果说搜索引擎提高了所需信息的查全率的话,结合文本自动聚类的多文档自动文摘技术将会使人们迅速的找到所需的内容,即查得更准更快。 目前多文档自动文摘技术在国外引起了充分重视,并成为研究热点之一。 在国内单文档自动文摘的研究比较深入,但是从事多文档文摘研究的单位比较少。

国外研究现状 国外研究主要是面对英文信息的处理。比较有代表性的系统有: 美国哥伦比亚大学的多文档自动文摘系统 Newsblaster。其研究主要针对新闻领域。可以对每天发生的同主题新闻进行摘要。目前该系统达到了每天上万人次的访问记录。 美国密西根大学研究开发的WebInEssence。这是一个个性化的基于Web的多文档自动文摘和内容推荐系统。 美国南加利福尼亚大学的信息科学研究所原型系统 NeATS。也是一个比较有名的多文档自动文摘系统。

国外研究现状 进行多文档自动文摘相关研究和开发的公司有: Vivisimo公司 (http://www.vivisimo.com) infonetware公司(http://www.infonetware.com) 这两个公司对搜索引擎返回的结果进行了有效地聚类整理。而文档聚类是多文档自动文摘的一个关键的预处理步骤。

国内研究现状 国内目前在单文档文摘上的研究相对比较深入,如东北大学、上海交通大学、中科院、哈工大等科研机构进行的研究。 在多文档自动文摘方面,国内复旦大学开发了一个基于统计的文本自动综述系统,该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述. 在文档聚类方面,北京大学计算机科学与技术系提出了一种快速的Web文档聚类方法: PCCS部分聚类分类。中科院的陈宁等人提出了基于模糊概念图的聚类方法。中科院计算所的吴斌提出了基于群体智能的文档聚类算法。

多文档自动文摘的研究内容 目前在多文档自动文摘所涉及的相关自然语言处理技术上都取得了一定的进展。如文本分类,单文档自动文摘,汉语的自动分词,人名、地名、机构名等中文名实体识别,基于词矢量的语义量化模型等等。 项目以汉语的语义量化以及基于文档主题的自动聚类为基础,重点进行汉语多文档自动文摘的研究。 最终建立起一个高效、准确的汉语多文档自动文摘系统,以满足当前网络环境下人们对海量信息的准确、高速获取与处理的迫切需求。允许用户输入关键词,并从多个信息源收集可能的相关信息,进行聚类和摘要处理。 通过有机集成基于词矢量的汉语的语义量化模型、基于多知识源的文本主题分析算法、多文档自动聚类算法以及汉语语言生成等自然语言处理技术,并在单文档自动文摘技术基础上,解决多文档摘要的主题一致性以及由于多文档文摘句之间缺乏一致性与连贯性而无法保证文摘生成质量的问题。

问题 单文档文摘评测 863评测 评测方法和标准: 先验式测试集评测 后验式个性化评测 多文档文摘评测

3智能输入与音字转换 研究目的 研究通用型、跨平台语句级音字转换技术 研究小型移动设备(例如手机、PDA)上使用的音字转换技术

语言模型 N-gram

问题1: 长距离依赖 “He read an English book” 一枝小花 一只小花猫

问题2:递归 1234 一千二百三十四 654321 六十五万四千三百二十一 123456789987 一千二百三十四台机器

问题3: 部分理解 字、词、短语等

智能(语句级)拼音输入的研究内容 统计与规则结合的语言模型 拼音汉字转换算法 面向数字键盘的多种歧义消解技术 支持字、词、语句级的多级系列化拼音输入 面向用户的先进人机接口的研究与实现 支持多种汉字标准的编码兼容技术 支持多种嵌入式操作系统和多种开发环境

4、生物信息学方面的研究 问题的提出: 在美国国家自然科学基金的支持下,Carnegie Mellon University正在进行这方面的研究 项目经费总计九百万美元 合作单位 University of Pittsburgh Massachusetts Institute of Technology Boston University National Canadian Research Council

生物信息技术的发展背景 人类对生命的认识水平 系统 器官 组织 细胞 分子 医学及医学信息技术 生物科学及生物信息技术

生物信息技术的发展背景 分子水平对生命的认识 染色体:遗传物质的主要载体; DNA:主要遗传物质,双螺旋结构,遗传信息的载体; 蛋白质:特定的决定人体的特定细胞和器官的形成与运转

4、生物信息学方面的研究 蛋白质结构预测 随着人类和其它动物基因组破译工作的完成,生物学研究面临的最重要的挑战之一,就是如何由这些生物大分子的基因序列预测它们的结构与功能。如果能够做到这一点,将在所有生物技术与药物设计领域产生巨大的影响。

蛋白质结构预测 目前,基因组范围内的研究重点在于同源性分析上,而不是通过序列确定这些蛋白质功能的规则上面。需要指出的是,这些问题无法依靠单独同源性研究而解决。相反,我们建议基因组数据可以用于训练和分类的研究,该研究意在根据某一组织内蛋白质序列的每一个位置在生物序列、结构和功能的映射关系中的作用分类。

蛋白质结构预测 我们建议采用语言学的方法来研究生物学的问题 ,以超出一般语言技术应用的观点,更深层次地考察生物序列、结构和功能的映射关系问题。该方法的目的是提供实用的方法用于建立基于不同生物体蛋白质序列的词和短语及相应的语法规则的语言模型

蛋白质结构预测 N-gram统计分析: 生物统计语言模型: 挖掘与生物体种类相关的“词和短语”。建立用于区分生物体种类的模型。 建立与物种相关的生物统计语言模型,用于预测蛋白质的二级结构、三级结构。

蛋白质结构预测 蛋白质序列基于内容的特征发现: 抽取多种生物体序列中与结构和功能密切相关的有意义的“词”、“短语”以及相应“语法规则”,结合空间构象中分子动力学和分子热力学的约束条件,建立多种生物体的生物语言学词典。

基因表达数据的分析 基因表达水平的分析对于研究及了解生物体特性和基因功能起着至关重要的作用。对基因表达数据,在大规模数据集上进行分析和归纳可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解遗传网络,提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向。

基因表达数据的分析 聚类分析 聚类方法是基因表达数据分析的基础,但目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。 应用文本聚类分析及相关技术,分析基因表达数据,将表达规律相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。利用聚类分析的结果可以研究基因的启动子,分析表达模式相同的一类基因的启动子组成特性,通过多重序列比对操作,在各个基因序列的上游区域寻找共同的启动子。

基因表达数据的分析 基因表达网络调控模式的研究 系统科学的研究正在推动生物学家从系统角度看待具有高度复杂性的生命现象。生命系统是一个有内外相互作用的自组织系统,即储存生命信息的各基因并不是孤立地发挥作用,而是通过形成“基因网络”这样一个复杂系统来推动生命演化的。

基因表达数据的分析 基因表达网络调控模式的研究 内容包括探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明一些基因对另一些基因的调节作用。

5、 智能化中文信息处理平台 研究目标和主要研究内容 根据863重点课题合同,研究建立用于中文信息处理的大型关键性基础资源库与相关加工技术: (1)  多语种的机器翻译、语音识别与合成、文字识别技术、语言处理技术; (2)  基于内容的Internet信息搜索、处理和理解技术 (3)  大型基础资源库核心技术 进一步完善、融合这些关键技术,构造面向网络环境的新型智能化中文信息处理平台。

研究队伍以及人员 队伍:自然语言处理课题组、机器翻译课题组、模式识别(手写输入)课题组、语音识别课题组、计算机新技术研发中心5个课题组100多人 经历:80年代至今。基本上经历了中文信息处理领域发展的全过程。问答系统、机器翻译、语句输入、手写输入等均为国内最先推出的几家之一。

文本获取 自动分词 词性标注 词义标注 句法分析 总体结构 语言处理技术 问答 文摘 翻译 检索 智能输入输出 语音 手写 键盘语句 语料多级加工技术 文本获取 自动分词 词性标注 词义标注 句法分析

经验总结 基础研究与应用研究 注重评测 注重应用,实践检验真理 研究语言无关的语言处理技术 国际化 通用性

谢谢!