Relation Detection And Recognition *** *** ***
Schema General Description Name Entity Recognition RDR Training Corpus Generate Relation Detection and Recognition Performance Analysis
General Description-Algorithm EDR: CRF Character based RDR: SVM Pos is needed
General Description-Workflow
Schema General Description Name Entity Recognition RDR Training Corpus Generate Relation Detection and Recognition Performance Analysis
Name Entity Recognition-Algorithm CRF++ Character based Most naive 发 non
Name Entity Recognition-Accuracy nr precious:100% right:88 error:0 nt precious:100% right:36 error:0 ns precious:100% right:56 error:0 180/181 海湾战争 nz 9 22
Schema General Description Name Entity Recognition RDR Training Corpus Generate Relation Detection and Recognition Performance Analysis
RDR Training Corpus Generate The vector SVM need: e1.type, e2.type,order, dist, w-2,w-1,w0,w1,w2,t-2,t-1,t0,t1,t2, relation Exp: 国家环保局局长解振华庄重宣布 国家环保局,2,解振华,1,3,11,NULL,NULL,国家环保局,局,长,局,长,解振华,庄,重,null,null,null,NN,NR,NN,NN,null,VA,DEC,E
RDR Training Corpus Generate 1、NLP Pos tag: 国家/NN 环保局/NN 局长/NN 解振华/NR 庄重/VA 宣布:/DEC 2、Compare with Entity: 国家环保局/nt,解振华/nr 3、Find the type front and back null,null,null,NN,NR NN,NN,null,VA,DEC
RDR Training Corpus Generate 4、Tag the train corpus by hands 国家环保局,2,解振华,1,3,11,NULL,NULL,国家环保局,局,长,局,长,解振华,庄,重,null,null,null,NN,NR,NN,NN,null,VA,DEC,E
RDR Training Corpus Generate Use Assit Program: Tagged Corpus: 602 sentence 3000+relations
Schema General Description Name Entity Recognition RDR Training Corpus Generate Relation Detection and Recognition Performance Analysis
概述 将关系识别问题看作多分类问题 输入:实体对向量集X(x1,x2,……xn) 其中 xi (f1, f2, ……fn ) 表示实体对(E1,E2) 输出: xi 所属的类型yi 使用SVM的方法构造分类器 选取合适的特征集来描述实体对,并映射 到高维实数空间,进行分类
SVM 支持向量机( Support Vector Machine, SVM) 其主要思想是针对两类分类问题, 在高维空间中寻找一个超平面作为两类的分割, 以保证最小的分类错误率。通过学习, 可以自动寻找那些对分类有较好区分能力的支持向量, 由此构造出的分类器可以最大化类之间的间隔。 工具LIBSVM (http://www.csie.ntu.edu.tw/~cjlin/libsvm/) 有可执行的程序来构造多分类器以及训练和预测功能。
实体对过滤模块 关系定义 C:chief(nr-nt) E:employee(nr-nt) L:located in(nt-ns) N:no relation 实体对过滤模块 将除(nr-nt),(nt-ns)外的实体对过滤,过滤后的实体对作为candidate进行标注(train)或分类(test)
特征选取和向量化模块 选取以下特征构造特征集 e1.type,e2.type,contain,order,dist, w-2,w-1,w1,w2,t-2,t-1,t1,t2, Relation 在实际模型训练中有调整 映射到向量形式
向量化模块和scale模块 向量形式 Label index1:value1 …… 1 1:2 2:3 3:4…… Scale(libsvm: svm-scale.exe) 对数据集进行缩放([-1,1]) 便于计算,统一训练集和测试集
训练模块 人工对candidate进行关系标注 Libsvm: svm-train.exe 特征集和参数的选择(交叉验证法) 构造模型
测试 SampleTestData P=76%
Schema General Description Name Entity Recognition RDR Training Corpus Generate Relation Detection and Recognition Performance Analysis
分析与改进 前序工作引入的误差 训练语料不够大 人工标注的语料引入误差 特征集的选取(提取语义特征) 训练参数的选取(网络搜索)