自然语言处理的若干问题研究哈尔滨工业大学王晓龙电话：

Slides:

Advertisements

Similar presentations

西南政法大学图书馆江波重庆. 传统图书馆自动化图书馆复合图书馆数字图书馆  图书馆为图书流通服务所制定的相关规则，包括图书流通类型、读者类型、读者可借阅图书数量、可借阅时间、可续借时间、可续借次数、可预约数量等。

Advertisements

行政院原住民族委員會法規暨訴願審議委員會 102 年度原住民身分法實例演練講習：原住民身分認定及救濟程序.

1 南郭國小翁正雄 95/06/09 教育部健康醫學學習網傳統醫學學習館交流研習資料來源：教育部六大學習網及簡介健康醫學學習網及簡介.

本校自民國 78 年於顏前校長世錫任內創設本系設立鑑識科學學系大學部，專責鑑識人才之培養，為目前國內唯一專門培育鑑識科學人才、研究鑑識科學學術之大學學系，設系剛滿 20 年。自 85 年於姚前校長高橋任內，設立鑑識科學研究所招收碩士生，民國 88 年於謝前校長瑞智任內先後獲內政部、教.

教務處註冊組 /7 （二） 10 ： 00 至 15 ： 00 止 ★ 6/8 彙整報名資料後， 6/9 向高中承辦學校報名 ★ 因校內作業時間緊迫，逾時恕不受理。校內報名時間.

第二节基因在亲子代间的传递. 1. 什么叫做遗传？ 2. 什么叫做性状？ 3. 性状是由什么决定的？

一、老师申请题目，以下指导老师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”

2010 新聞局影視幕後人才培訓課程電視節目的類型解析講師：高光德教授. 電視節目主要類型  新聞氣象節目  體育節目  綜合娛樂節目.

第二章：生物科學與食品第三節：基因改造食品.

三水区安监局企业安全用电 2013年4月.

耶穌 (願主賜他平安) 在伊斯蘭教的地位.

第三章现代教育与人的发展.

企业价值收益法评估 ----财务报表调整主讲人：阮咏华 1.

绿色植物在家庭居室空气污染控制中的作用小组成员：.

夯实基层创新进取大力践行医药卫生体制改革丽水市卫生局黄刚

广西师范大学教科院马佳宏电话 0773－ (O) 高校教师资格认定考试的若干事项广西师范大学教科院马佳宏电话 0773－ (O)

第四章心理健康.

第21课时　生物圈中的微生物考点聚焦专项突破 1.

國民中學自然與生活科技第二冊第３章　生殖 3-1 細胞分裂 3-2 無性生殖 3-3 有性生殖.

职业礼仪讲师：刘巍女士.

右腦最佳開發時期是3歲到13歲人的左腦最佳開發期是18歲到25歲

第三节灰树花栽培技术主讲段鸿斌.

开展优质护理服务落实重患护理沈阳市第四人民医院姚军.

学校核心发展力上海市建平中学程红兵.

亚洲国家一流大学建设的国际化道路：体制改革的视角

李建民教授北京百川健康科学研究院脊柱健康技术研究中心

必修二生物（人教版）.

想一想议一议 P74 我们常吃的蘑菇有根、茎、叶吗？它们的生长是否需要光？为什么说它们是真菌而不是植物呢？

三次科技革命学习目标： 1.知道三次科技革命的时间、标志、发源地、理论基础、主要成就、主要特点及影响。 2.培养归纳历史知识的能力

健康上网初一3班王诗婷.

我的学校——达县职高制作人——高一计算机应用二班王天.

第八章网络课程的设计与开发.

绪论　珍惜大学生活开拓新的境界.

第十一章真理与价值主讲人：阎华荣.

三大自然区的内部差异地理全日制普通高级中学教科书（选修）第二册人民教育出版社地理社会室编著人民教育出版社关于.

王永慶遺產分配第三組民法報告 4970T011 劉昭妤 4970T037 吳品怡 4970T090 袁如意

台南在地美食文化介紹台南市鳳凰城文史協會理事長歐財榮.

一、作者概說：　　王壽來，民國三十八年生，山西省五臺縣人，中興大學法律系畢業，美國喬治城大學碩士、臺灣師範大學美術研究所碩博士。長期從事文化與外交工作，現任文建會文化資產總管理處籌備處主任。　　王壽來靈感多取自生活經驗，善用中外名言，描繪人生百態。著有《公務員快意人生》、《藝術‧收藏‧我》、《公務員DNA》、《和世界偉人面對面》等書。

所羅門王的指環班級:J106 座號:32 姓名:鐘唯禎.

导入新课波能绕过障碍物产生衍射。既然光也是一种波，为什么在日常生活中难以观察到光的衍射现象呢？.

高中生物学必修Ⅰ 分子与细胞前言.

第七章固定资产.

对青少年网络伦理问题的分析 ——应用伦理学课题报告.

关注生物技术的伦理问题.

互联网时代班主任的挑战万玮 2014年9月20日.

2015年高考历史质量分析报告兰州市外国语高级中学杨彩玲.

东北师大理想信息技术研究院院长中国教育软件协会副主任英国计算机与自动化学会顾问

肝功能正常的小三阳注意事项.

突變突變是指遺傳物質發生改變，而影響到性狀的表現例：白化症.

读书报告要求每人写一篇读书报告。要求，对学习这门课程之后形成的对计算机科学的一个总的、一般的认识，但不要泛泛而论。

授課大綱第一章緒論第一節應用文的意義第二節應用文的種類第二章書信第一節書信的種類第二節書信的結構第三章便條

行政院國軍退除役官兵輔導委員會嘉義榮民醫院.

生物五界的分類方式.

鄉村尋根-農具篇.

复旦俄语歌小组的成长历程（上集）徐士菊周德庆编制制作 ,以后时有增补配乐：小路Track 1/83.

五年級美勞科美術欣賞沃荷.

自然科教學觀摩教學者：黃藍萩教學班級：3年9班教學日期：

公立學校教職員退休資遣撫卹條例重點說明苗栗縣政府人事處編製主講人：陳處長坤榮 107年5月2日.

耶穌 (願主賜他平安) 在伊斯蘭教的地位.

人是由什么发育而来的？一个受精卵.

如何检索统计申请与在研项目(科研人员) “科研之友”技术支持小组

新竹縣108學年度第1次國小以上特殊教育鑑定安置說明會

進修學院與我.

“修身成材” 班级干部培训班黑龙江大学党委学工部.

慈惠醫護管理專科學校圖書館館際合作使用方法.

非同源染色体：不是同源染色体的两条染色体

“上海市教师教育课程资源共享管理平台” 学分银行操作指南

证据运用第八章证据的运用第一节证据体系的结构及运用规则.

園區多元智能教育中心一年級課表科園、龍山、實小

Presentation transcript:

自然语言处理的若干问题研究哈尔滨工业大学王晓龙电话：0451-86413322 Email: wangxl@insun.hit.edu.cn

主要研究内容问答系统与问答式检索多文档自动文摘智能输入与音字转换生物信息学智能化中文信息处理平台

1.问答系统与问答式检索四个系统 1国内早期的问答系统研究 80年代针对固定段落 7w 技术路线1 基于理解技术路线2 基于统计的检索

1.问答系统与问答式检索 2基于问答对的问答系统问一问：100万句 3专业网站黑龙江联通网站 4国家863重点项目数字奥运旅游领域。国家自然科学基金项目

1.问答系统与问答式检索国内外研究现状 Mit开发的Start系统尤里卡搜索引擎目前国外开发出的一些相对成熟的问答系统包括： AnswerBus系统国内的研究成果尤里卡搜索引擎百度(孙悟空)搜索引擎问一问搜索引擎

问答式信息检索研究在每年一度的文本信息检索（TREC）会议上，自动问答（Question Answering Track）是最受关注的主题之一。越未越多的大学和科研机构参与了TREC会议的Question Answering Track。

1.问答系统与问答式检索问答式信息检索研究允许用户输入自然语言问句系统直接返回答案或者蕴含答案的文本片断符合人的习惯精确刻画信息需求系统直接返回答案或者蕴含答案的文本片断提高信息检索的效率精确度是问答式信息检索的首要指标

问答式信息检索研究研究目标研究基于Web的面向大规模真实网络文本的问答系统目前为受限领域（旅游领域）研究高鲁棒性的相关语言处理技术，带动它们向实用化方向发展

问答式信息检索研究技术路线用户问句与海量网络语言信息的深层次结构化加工处理海量语言信息的自动结构化技术海量网络文档自动分类技术海量网络文档的摘要生成

问答式信息检索研究海量语言信息的自动结构化技术自动分词词性标注名实体识别短语划分句法结构标注语义标注

自动分词词网格分词采用分类算法解决汉语的交叉歧义和组合歧义 Bigram模型词网格技术 Viterbi算法这两项指标在2003年的863评测中名列首位

词性标注同时支持北大标注集和清华北语标注集隐马尔科夫模型词性标注基于触发对的最大熵模型词性标注目前正在研究粗糙集和最大熵融合的模型北大1998年6月人民日报语料评测词性标注精确率94.5% 基于触发对的最大熵模型词性标注北大1998年6月人民日报语料评测词性标注精确率96.5% 目前正在研究粗糙集和最大熵融合的模型有望将词性标注的正确率提高到97~98%左右

名实体识别人名、地名、机构名、日期、时间、数字、比例等人名（中外人名）、地名和机构名是识别的重点与难点所在基于最大熵模型中文名实体识别基础模型：最大熵模型基于转移的错误驱动（TBL）机器学习技术进行名实体识别结果修正采用特征融合技术解决权值偏执问题采用Boosting技术解决过拟和问题最近一次的评测结果如下： 98年人民日报语料测试的结果为：人名：正确率：89.2%，召回率：81.6%，F量度：85.22%，地名：正确率：94.3%，召回率：89.9%，F量度：92.1%，机构名：正确率：85.3%，召回率：63.3%，F量度：72.7%。

短语划分鲁棒性句法分析策略级联式有限状态句法分析方法基于词语搭配的有限状态短语划分算法优点缺点适于处理网络文档（含有大量未登录词、病构语句）效率较高处理101,500篇旅游类网络文档耗时4个小时左右。精度能够满足问答式信息检索的需要缺点与现有的句法分析方法在技术路线上完全不同，因此造成评测的困难缺乏训练机制

海量网络文档自动分类技术针对文档分类技术本身，研究文档分类技术中的关键技术的创新与融合特征提取与重构分类器算法融合基于期望交叉熵的特征提取算法以OKAPI权值计算公式对文本进行向量化表示 Semi-Discrete Matrix Decomposition (SDD)算法对文档向量进行语义分析分类器算法融合 KNN分类算法支持向量机（SVM）算法 2003年文本分类评测取得了第一名的成绩评测显示：采用K-NN与SVM算法相结合的文本分类技术，在分类精度上有了进一步的提高。

海量网络文档自动分类技术研究自动文档分类技术在专业领域问答式信息检索中的应用方法语义类别的确定问题文本分类应用策略问题目前采用人工确定的方法文本分类应用策略问题重新排序技术过滤不相关答案技术

海量网络文档自动分类技术实验表明，自动文档分类技术在减少候选答案片段的同时可有效提高问答系统的准确率与响应时间，对系统效率有明显的改善。

问题：单项技术评测分词、标注、文本分类、文摘总体评测

2、多文档自动文摘研究意义多文档自动文摘目的在于将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要输出。与单文档自动文摘相比，多文档自动文摘不但达到了“摘要”的效果，而且体现了“信息整理”和“信息融合” ，从而会提高获取信息的效率。如果说搜索引擎提高了所需信息的查全率的话，结合文本自动聚类的多文档自动文摘技术将会使人们迅速的找到所需的内容，即查得更准更快。目前多文档自动文摘技术在国外引起了充分重视，并成为研究热点之一。在国内单文档自动文摘的研究比较深入，但是从事多文档文摘研究的单位比较少。

国外研究现状国外研究主要是面对英文信息的处理。比较有代表性的系统有：美国哥伦比亚大学的多文档自动文摘系统 Newsblaster。其研究主要针对新闻领域。可以对每天发生的同主题新闻进行摘要。目前该系统达到了每天上万人次的访问记录。美国密西根大学研究开发的WebInEssence。这是一个个性化的基于Web的多文档自动文摘和内容推荐系统。美国南加利福尼亚大学的信息科学研究所原型系统 NeATS。也是一个比较有名的多文档自动文摘系统。

国外研究现状进行多文档自动文摘相关研究和开发的公司有： Vivisimo公司（http://www.vivisimo.com） infonetware公司（http://www.infonetware.com）这两个公司对搜索引擎返回的结果进行了有效地聚类整理。而文档聚类是多文档自动文摘的一个关键的预处理步骤。

国内研究现状国内目前在单文档文摘上的研究相对比较深入，如东北大学、上海交通大学、中科院、哈工大等科研机构进行的研究。在多文档自动文摘方面，国内复旦大学开发了一个基于统计的文本自动综述系统，该方法利用文档内和文档之间段落的语义相关性，实现多文档的自动综述. 在文档聚类方面，北京大学计算机科学与技术系提出了一种快速的Web文档聚类方法： PCCS部分聚类分类。中科院的陈宁等人提出了基于模糊概念图的聚类方法。中科院计算所的吴斌提出了基于群体智能的文档聚类算法。

多文档自动文摘的研究内容目前在多文档自动文摘所涉及的相关自然语言处理技术上都取得了一定的进展。如文本分类，单文档自动文摘，汉语的自动分词，人名、地名、机构名等中文名实体识别，基于词矢量的语义量化模型等等。项目以汉语的语义量化以及基于文档主题的自动聚类为基础，重点进行汉语多文档自动文摘的研究。最终建立起一个高效、准确的汉语多文档自动文摘系统，以满足当前网络环境下人们对海量信息的准确、高速获取与处理的迫切需求。允许用户输入关键词，并从多个信息源收集可能的相关信息，进行聚类和摘要处理。通过有机集成基于词矢量的汉语的语义量化模型、基于多知识源的文本主题分析算法、多文档自动聚类算法以及汉语语言生成等自然语言处理技术，并在单文档自动文摘技术基础上，解决多文档摘要的主题一致性以及由于多文档文摘句之间缺乏一致性与连贯性而无法保证文摘生成质量的问题。

问题单文档文摘评测 863评测评测方法和标准：先验式测试集评测后验式个性化评测多文档文摘评测

3智能输入与音字转换研究目的研究通用型、跨平台语句级音字转换技术研究小型移动设备（例如手机、PDA）上使用的音字转换技术

语言模型 N-gram

问题1: 长距离依赖 “He read an English book” 一枝小花一只小花猫

问题2：递归 1234 一千二百三十四 654321 六十五万四千三百二十一 123456789987 一千二百三十四台机器

问题3：部分理解字、词、短语等

智能(语句级)拼音输入的研究内容统计与规则结合的语言模型拼音汉字转换算法面向数字键盘的多种歧义消解技术支持字、词、语句级的多级系列化拼音输入面向用户的先进人机接口的研究与实现支持多种汉字标准的编码兼容技术支持多种嵌入式操作系统和多种开发环境

4、生物信息学方面的研究问题的提出：在美国国家自然科学基金的支持下，Carnegie Mellon University正在进行这方面的研究项目经费总计九百万美元合作单位 University of Pittsburgh Massachusetts Institute of Technology Boston University National Canadian Research Council

生物信息技术的发展背景人类对生命的认识水平系统器官组织细胞分子医学及医学信息技术生物科学及生物信息技术

生物信息技术的发展背景分子水平对生命的认识染色体：遗传物质的主要载体； DNA:主要遗传物质，双螺旋结构，遗传信息的载体；蛋白质：特定的决定人体的特定细胞和器官的形成与运转

4、生物信息学方面的研究蛋白质结构预测随着人类和其它动物基因组破译工作的完成，生物学研究面临的最重要的挑战之一，就是如何由这些生物大分子的基因序列预测它们的结构与功能。如果能够做到这一点，将在所有生物技术与药物设计领域产生巨大的影响。

蛋白质结构预测目前，基因组范围内的研究重点在于同源性分析上，而不是通过序列确定这些蛋白质功能的规则上面。需要指出的是，这些问题无法依靠单独同源性研究而解决。相反，我们建议基因组数据可以用于训练和分类的研究，该研究意在根据某一组织内蛋白质序列的每一个位置在生物序列、结构和功能的映射关系中的作用分类。

蛋白质结构预测我们建议采用语言学的方法来研究生物学的问题，以超出一般语言技术应用的观点，更深层次地考察生物序列、结构和功能的映射关系问题。该方法的目的是提供实用的方法用于建立基于不同生物体蛋白质序列的词和短语及相应的语法规则的语言模型

蛋白质结构预测 N-gram统计分析: 生物统计语言模型: 挖掘与生物体种类相关的“词和短语”。建立用于区分生物体种类的模型。建立与物种相关的生物统计语言模型，用于预测蛋白质的二级结构、三级结构。

蛋白质结构预测蛋白质序列基于内容的特征发现: 抽取多种生物体序列中与结构和功能密切相关的有意义的“词”、“短语”以及相应“语法规则”，结合空间构象中分子动力学和分子热力学的约束条件，建立多种生物体的生物语言学词典。

基因表达数据的分析基因表达水平的分析对于研究及了解生物体特性和基因功能起着至关重要的作用。对基因表达数据，在大规模数据集上进行分析和归纳可以了解基因表达的时空规律，探索基因表达的代谢控制，了解基因的功能，理解遗传网络，提供疾病发病机理的信息。研究基因表达数据的处理和分析方法已成为生物信息学发展的一个重要方向。

基因表达数据的分析聚类分析聚类方法是基因表达数据分析的基础，但目前这类方法只能找出基因之间简单的、线性的关系，需要发展新的分析方法以发现基因之间复杂的、非线性的关系。应用文本聚类分析及相关技术，分析基因表达数据，将表达规律相似的基因聚为一类，在此基础上寻找相关基因，分析基因的功能。利用聚类分析的结果可以研究基因的启动子，分析表达模式相同的一类基因的启动子组成特性，通过多重序列比对操作，在各个基因序列的上游区域寻找共同的启动子。

基因表达数据的分析基因表达网络调控模式的研究系统科学的研究正在推动生物学家从系统角度看待具有高度复杂性的生命现象。生命系统是一个有内外相互作用的自组织系统,即储存生命信息的各基因并不是孤立地发挥作用，而是通过形成“基因网络”这样一个复杂系统来推动生命演化的。

基因表达数据的分析基因表达网络调控模式的研究内容包括探索基因的转录调节网络，发现基因在环境或药物作用下表达模式的变化，阐明一些基因对另一些基因的调节作用。

5、智能化中文信息处理平台研究目标和主要研究内容根据863重点课题合同，研究建立用于中文信息处理的大型关键性基础资源库与相关加工技术： (1) 多语种的机器翻译、语音识别与合成、文字识别技术、语言处理技术; (2) 基于内容的Internet信息搜索、处理和理解技术 (3) 大型基础资源库核心技术进一步完善、融合这些关键技术，构造面向网络环境的新型智能化中文信息处理平台。

研究队伍以及人员队伍：自然语言处理课题组、机器翻译课题组、模式识别（手写输入）课题组、语音识别课题组、计算机新技术研发中心5个课题组100多人经历：80年代至今。基本上经历了中文信息处理领域发展的全过程。问答系统、机器翻译、语句输入、手写输入等均为国内最先推出的几家之一。

文本获取自动分词词性标注词义标注句法分析总体结构语言处理技术问答文摘翻译检索智能输入输出语音手写键盘语句语料多级加工技术文本获取自动分词词性标注词义标注句法分析

经验总结基础研究与应用研究注重评测注重应用，实践检验真理研究语言无关的语言处理技术国际化通用性

谢谢！