学 生:王莉峰 指导老师:秦 兵 老师 日 期:2009-6-7 基于有指导的音乐实体关系抽取 学 生:王莉峰 指导老师:秦 兵 老师 日 期:2009-6-7.

Slides:



Advertisements
Similar presentations
供瘤动脉超选插管 的临床价值探讨 南京医科大学附属南京第一医院介入科 顾建平 年 5 月 · 上海 在肿瘤的介入性诊疗工作中, 供瘤动脉的超选插管有其重要的 临床意义。
Advertisements

2014 年职称英语等级考试 综合类精讲班 主讲:叶老师. 职称英语考试与复习方法 一、职称英语考试 1. 职称英语考试的特点: a 综合英语分为 A B C 级 b 职称英语考试和教材的关系 c 可以借助字典 d 送分( 分) (1) 词汇选项(可能送 3—8 分) (2) 阅读判断.
腫瘤個案管理師之職責與作業 乳癌個案管理師 : 陳慧蘭. 腫瘤個案管理師之職責  收案  評估病家需求  擬訂及提供照護計畫  參與多專科共同照護  提供追蹤管理  品質監測及回饋.
传媒学生应该如何度 过四年大学生活?. 进入大学一个多月了,用一个词形容大 学生活 自卑感 不适应 空虚感 被动感 孤独感 失望感 一、大学新生不适应大学生活的表现:
大家好.
从永磁体谈起.
杨宇航 百度社区技术部 推荐技术在 百度UGC产品中的应用 杨宇航 百度社区技术部
学党章党规、学系列讲话,做合格党员 学习教育
中文信息抽取专题 苏州大学计算机科学与技术学院.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
电磁铁.
商务礼仪 新员工培训.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
浙江工商大学 计算机与信息工程学院 报告人:陈威 指导老师:施寒潇
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
区级课题汇报 (初期) 汇报人:建平中学周宁医 2008年9月27日.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
Relation Detection And Recognition
项目申报及投资推进工作实务 更多模板、视频教程: 兰溪市发展和改革局 2013年9月 1.
臺北市特殊教育校園融合 聽覺障礙篇 臺北市政府教育局 發行 臺北市立中山女子高級中學 彙編.
说一说,看谁说的多: 金色的( ) 金色的…… 阳光 麦浪 童年 沙滩.
豆瓣算法工程师 曾俊瑀 douban id : knighter
计算机基础知识 丁家营镇九年制学校 徐中先.
Geophysical Laboratory
面向对象建模技术 软件工程系 林 琳.
R in Enterprise Environment 企业环境中的R
SOA – Experiment 3: Web Services Composition Challenge
Wentao Ding Linfeng Shi Jiajie Yu
数控车床仿真实验 一、实验目的 二、实验内容 三、实验报告 四、实验过程 五、实验操作.
利用Arduino制作定向装置 核科学与技术系 崔伟毅 梁嘉祺
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
基于规则抽取的 时间表达式识别.
臺北市特殊教育校園融合 聽覺障礙篇 臺北市政府教育局 發行 臺北市立中山女子高級中學 彙編.
动名词(续2).
WSDM见闻 程龚.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
编程作业3:网页正文抽取 (10分).
K60入门课程 02 首都师范大学物理系 王甜.
2019/4/20 关注NE官方微信,获取更多服务.
一种处理未登录词翻译的新视角 张家俊 翟飞飞 宗成庆
智慧財產權與創用CC.
2019/4/ /4/25 学习科研好助手 NoteExpress文献管理与检索系统 北京爱琴海乐之技术有限公司.
2019/4/26 关注NE官方微信,获取更多服务.
实体描述呈现方法的研究 实验评估 2019/5/1.
中国风背景论文答辩模板 某大学某某信息学院 答辩学生:代用名 指导老师:代用名 答辩时间:201X年1月30日
微信商城系统操作说明 色卡会智能门店.
Deep Learning Research & Application Center
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
数据集的抽取式摘要 程龚, 徐丹云.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
口 译 理 论 与 实 践 沈阳师范大学 闫怡恂 教授.
南华大学 计算机科学与技术学院 多策略中文微博细粒度情绪分析研究 南华大学 欧阳纯萍 2013年11月18日.
Music: Somewhere In Time
基于规则抽取的时间表达式识别 -英文Ⅲ 高冠吉.
OpenStack vs CloudStack
大度讀人 摘選自《作家文摘》.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
藝 術 與 人 文 之 靈感的探索.
多模光纤数值孔径(NA)性质及参数测量实验
Continuous Authentication for Voice Assistants
Adj + Noun映射到知识库中的classes
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
知识点4---向量的线性相关性 1. 线性相关与线性无关 线性相关性的性质 2..
台灣房價指數 台灣房屋 中央大學 2011年7月29日.
入侵检测技术 大连理工大学软件学院 毕玲.
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

学 生:王莉峰 指导老师:秦 兵 老师 日 期:2009-6-7 基于有指导的音乐实体关系抽取 学 生:王莉峰 指导老师:秦 兵 老师 日 期:2009-6-7

提纲 课题简介 主要研究内容 研究方法和实施方案 下一步工作

提纲 课题简介 主要研究内容 研究方法和实施方案 下一步工作 什么是信息抽取? 什么是音乐实体类型? 什么是音乐实体关系抽取? 为什么选择音乐领域? 主要研究内容 研究方法和实施方案 下一步工作

信息抽取: 将非结构化文本转换成 结构化数据,主要包括 实体识别、关系抽取、 共指消解等 知识数据库 吉林大学 它 东北行政学院 机构成立时间 吉林大学坐落在北国春城 -长春市,它创立于1946年,前身为东北行政学院,是教育部直属的一所全国重点综合性大学。 吉林大学坐落在北国春城 -长春市,它创立于1946年,前身为东北行政学院,是教育部直属的一所全国重点综合性大学。 信息抽取: 将非结构化文本转换成 结构化数据,主要包括 实体识别、关系抽取、 共指消解等 位置 关系 1946年 附属关系 北国春城 长春市 教育部 关系表 ID Subsidiary Org Time Place 1 吉林大学 教育部 1946年 长春市 … 知识数据库 … …

(分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注等) 互联网 用户 文档 垂直搜索 精准化搜索 采集信息 提问、log 结构化数据 答案 非结构化数据 基于NLP的IR 问答系统 智能化搜索 信息抽取 细粒度挖掘 理解用户 智能交互 理解文档 抽取信息 结构化数据 理解语言 面向IR的NLP: (分词、词性标注、命名实体识别、依存句法分析、词义消歧、语义角色标注等)

什么是音乐实体类型? 命名实体(Named Entity, NE) 音乐命名实体(Music Named Entity, MNE) 实体名:人名、地名、机构名、专有名词、时间等 例子:在2008年11月7日吉林大学召开的全校干部大会上,任命原山东大学校长展涛为吉林大学校长。 音乐命名实体(Music Named Entity, MNE) 艺术家名、艺术家别名、歌曲名、专辑名、唱片公司名、时间 例子:亚洲天王周杰伦发行第六张国语专辑《十一月的萧邦》,新专辑包含了《夜曲》、《发如雪》等十二首动听的歌,大家可以在专辑当中,嗅出周董潜藏的浪漫古典因子。

什么是音乐实体关系抽取? 在音乐实体识别的基础上,判断一个句子中任意两个实体是否属于我们预先定义好的某种关系。 例子:08年12月,蔡依林3000万改签华纳唱片。

为什么选择音乐领域? 通用域的难点 领域收缩:乐坛、电子产品、教育、体育等 没有完善的关系类型体系 建立关系类型体系困难 关系类型太多 关系如何命名呢? 覆盖面要尽可能全 细化、准确… … 领域收缩:乐坛、电子产品、教育、体育等 研究方法可移植,也是某种意义上的通用域

提纲 课题简介 主要研究内容 研究方法和实施方案 下一步工作

主要研究内容 音乐实体关系抽取 基于有指导的学习方法 分类模型 训练 建立音乐实体关系类型体系 构建语料库 特征提取

提纲 课题简介 主要研究内容 研究方法和实施方案 语料库建设 特征提取 模型训练 评测 下一步工作

语料库建设 来源:新浪音乐新闻(2008.8-2009.3) 处理流程 … 断句 分词、 词性标注、 音乐实体 识别 随机筛选 10000句 作为待标 注语料 制定标 注规范、 人工标 注语料 句子 音乐实体 关系抽取 语料库 新闻文本 句子 … 句子

音乐实体关系抽取技术介绍 训练过程 识别过程 训练数据 (2/3) SVM训练/ MaxEnt训练 SVM模型/ MaxEnt模型 特征提取 语料库 随机筛选 实验数据 测试数据 (1/3) SVM分类/ MaxEnt分类 识别结果

训练过程-特征提取 输入:训练语料&词法句法信息 输出:特征文件 例如:在/p 北京/ns 奥运会/j 开幕式/n 上/nd ,/wp 刘欢/Na 和/c 莎拉布莱曼/Na 共同/d 演绎/v 了/u 主题歌/n 《我和你》/Nc 。/wp 特征提取器 实体1的类型 实体2的类型 实体1和实体2之间的第一个动词 实体1前面的第一个词 实体2后面的第一个词 实体1前面第一个词的词性 实体2后面第一个词的词性 … … class F1 F2 F3 F4 F5 F6 F7 … 艺术家-歌曲 Na Nc 演绎 和 。 c wp

训练过程-SVM or MaxEnt 输入:特征文件 输出:分类模型文件 开源的SVM工具包:Libsvm 2.89 http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 开源的MaxEnt工具包:OpenNLP.maxent http://opennlp.sourceforge.net/

识别过程-特征提取 测试数据特征提取与训练数据特征提取过程类似 区别 特征文件中无类别信息 class F1 F2 F3 F4 F5 F6 … ? Na Nc 演绎 和 。 c wp

识别过程-SVM or MaxEnt分类 输入:特征文件 输出:类别编号 class F1 F2 F3 F4 F5 F6 F7 … ? Na Nc 演绎 和 。 c wp Relation Type Prob 艺术家-歌曲 0.75 艺术家-专辑 0.13 歌曲-专辑 0.05 艺术家-唱片公司 0.02 专辑-发行时间 0.01 无关系 0.04

评测方法与结果 评测指标为准确率(P)、召回率(R)和F值

评测方法与结果

大纲 课题简介 主要研究内容 研究方法和实施方案 下一步工作

下一步工作 目前只处理了5种最常见的音乐实体关系 特征提取优化 存在代词,需要共指消解模块处理 句子级关系抽取->篇章级关系抽取 歌曲-专辑效果较低 核函数方法 存在代词,需要共指消解模块处理 句子级关系抽取->篇章级关系抽取 … …

谢谢各位老师!