Download presentation
Presentation is loading. Please wait.
Published by康貌 胡 Modified 7年之前
1
(mjin@mail.doshisha.ac.jp)
日本人文社会科学中的文本计算 同志社大学 文化情报学部 金 明哲 同志社大学 Doshisha University Jin Mingzhe
2
内容 文本挖掘与计算 文本挖掘与计算的商用软件 日本企业的文本挖掘与计算的现状 文本计算的免费软件 文本计算统计分析软件MLTP+R
文本计算应用的相关领域 文体计算(Stylometry)分析(两个实例) 文体计算与法语言学(两个实例) 同志社大学 Doshisha University Jin Mingzhe
3
现实世界的信息 图像,语音,文字,数字 可获得的大部信息是以文本形式 如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面等
由于电子形式的文本信息飞速增长 需要从文本数据中挖掘信息和知识 同志社大学 Doshisha University Jin Mingzhe
4
文本挖掘与计算 文本计算科学 Googl检索结果 2010年12月18日 text mining 5,760,000
textual data mining ,010,000 statisitcal analysis of text/textual data ,300 statisitcal analysis of corpus/corpora ,520 computation of text /textual ,560 text /textual computation ,674 text/textual computing ,241 computing text /textual ,788 computation of corpus/corpora ,002 quantitative text/textual analysis ,400 文本计算科学 同志社大学 Doshisha University Jin Mingzhe
5
文本挖掘/计算 文本挖掘(Text Mining)是一个从文本数据中获取用户感兴趣的模式,转换为有价值的信息和知识的过程。
文本挖掘是由数据挖掘的词汇派生 数据挖掘所用的是表格形式的数据(也称结构化的数据) 而文本挖掘所用的是非结构化的数据 核心:NLP技术,数据挖掘/统计分析 同志社大学 Doshisha University Jin Mingzhe
6
文本挖掘的主要内容与计算 文本挖掘 统计计算 文本摘要 文本元素的抽取 ??? 文本元素的建模 检验统计量,信息熵等 文本特征与结构分析
文本挖掘 统计计算 文本摘要 文本元素的抽取 文本元素的建模 文本特征与结构分析 文本聚类 文本分类 文本元素的趋势预测 文本元素的关联分析 ??? 检验统计量,信息熵等 统计指数与建模 主成份/对应分析/SOM等 层次/k平均聚类法 判别分析/模式识别 回归分析/生存分析 关联/相关分析 同志社大学 Doshisha University Jin Mingzhe
7
词/句法分词工具 形态素分析 JUMAN(1992年,京都大学 长尾真) ChaSen(茶筅,1997年,奈良科大,松本裕治)
MeCab(2002年,京都大学&NTT,工藤拓) Breakfast(富士通),SuMoM0(NTT),KAKASI(佐藤雅彦) 句法分析 JUMAN/KNP(1993年,京都大学 长尾真) CaBoCha(南瓜,2001年,奈良科大学,工藤拓) 注:奈良科大=奈良先端科学技术大学院大学 同志社大学 Doshisha University Jin Mingzhe
8
形态素解析结果 同志社大学 Doshisha University Jin Mingzhe
9
句法分析(构文解析) 不用语树,因为语树不适合于日语 以文节为单位切分、每个文节在其右方至少有一个文节和它对应。
这种对应关系叫“係受関係”。第几个文节与第几个文节缔结关系( Dependency Analysis ) 切分文节的精度达95%左右 係受関係的精度达90%左右 同志社大学 Doshisha University Jin Mingzhe
10
句法分析的输出结果 同志社大学 Doshisha University Jin Mingzhe
11
日本的商业文本挖掘的软件(1) 厂 商 名 软 件 名 称 QUALICA(小松) 野村综合研究所 日本电子计算 电力计算中心
厂 商 名 软 件 名 称 QUALICA(小松) 野村综合研究所 日本电子计算 电力计算中心 三菱电子信息系统 数理系统 UNISYS NTT VextMiner TRUE TELLER WordMiner Trend Scooper DIAMining®EX Text Minig Studio MiningPro Knowledgeocean 1997年开始出售 中文版 ( 2003/12/10) 2001年9月 Ver.1.0 现在也有中文版 同志社大学 Doshisha University Jin Mingzhe
12
日本的商业软件(2) 厂 商 名 软 件 名 称 SPSS SAS&小松 NEC JUST YSTEMS 日科技連 富士通 :
厂 商 名 软 件 名 称 SPSS SAS&小松 NEC JUST YSTEMS 日科技連 富士通 : Text Minig for Climentine CRM(VextMiner ) CSVIEW/TopicScope CB Market Intelligence SimpleWord Saas QRMining 同志社大学 Doshisha University Jin Mingzhe
13
野村证卷的 TRUE TELLER 450多个企事业单位利用,现在可处理中文 同志社大学 Doshisha University
Jin Mingzhe
14
松下电工公司的voc21系统 用野村证卷的TRUE TELLER
同志社大学 Doshisha University Jin Mingzhe 14
15
佳能的CATS(Call Analysis Tracking System)
2004年09月 “提高产品质量10倍”的运动 挖掘用户的“声音”信息
16
文本挖掘改善集团内各公司的业务(欧姆龙市场营销)
同志社大学 Doshisha University Jin Mingzhe
17
三菱电机信息系统(株)的DIAMings
同志社大学 Doshisha University Jin Mingzhe
18
三菱公司内的文本挖掘系统发展过程 2006年客户服务管理系统ARS(BMC Remedy Action Request System®)
之后ARS连接CTI(Computer Telephony Integration) 每月对于约4万件的咨询 2010年12月开始新的文本挖掘系统 同志社大学 Doshisha University Jin Mingzhe
19
并用DIAMining EX和VextMiner 使用两个文本挖掘引擎
把握整个趋势 检索概念 同志社大学 Doshisha University Jin Mingzhe
20
日本东邦大学与IBM合作 2011年6月6日 开发研究医疗文本信息以及时间序列数据的整合应用系统
大学医院:利用积累的大量的电子文本以及时间序列信息的视觉化信息,力求改善医疗质量和安全 IBM:通过现场数据进行文本挖掘技术的开发以及推广研究成果,特别是语义处理技术的研究和开发 同志社大学 Doshisha University Jin Mingzhe
21
富士通的文本挖掘软件2011/12/16日开始出售 文档和互联网上的产品投诉(Claim)信息抽取及分析
同志社大学 Doshisha University Jin Mingzhe
22
Text Mining Studio 词/句为单位 配有词典/用户词典 基本信息 频率分析 特色语分析 特征分析 情感分析 话题分析
时间序列分析 目前大学里用户较多 同志社大学 Doshisha University Jin Mingzhe
23
人文社会学领域中文本计算的问题 利用计算的手法进行文本分析的人不少,但不知无从下手 编程难度大,计算手法知识贫乏 商用软件价格昂贵
渴望使用方便的免费软件 理工科:有能力不想做 文科:想做没有能力 同志社大学 Doshisha University Jin Mingzhe
24
免费文本计算软件 ChaKi(茶器,奈良科大,松本裕治),分词后的结果装入数据库SQL里,管理切分好的语料
TTM(TinyTextMiner), 松村真宏(大阪大学), 三浦 麻子(关西学院大学)输入的是CSV文档,输出6种统计数据表,分析要用统计软件 KH-coder, 樋口耕一(立命館大学),输入的是一个文档 RMecab, 石田基広(徳島大学),在免费统计软件R运行分词软件,可直接进行挖掘与统计分析 HTML+R(MLTP(MultiLingual Text Processor+ R), 金明哲(同士社大学) 同志社大学 Doshisha University Jin Mingzhe
25
MLTP+R(文本统计分析工具) MLTP(MultiLingual Text Processor)多语种文本处理器(日文, 中文, 韩文, 英文,蒙文等) 利用Java开发 MLTP+R: 文本处理器MLTP上附加了统计分析软件R 字符为单位 文本的大小,文长,n-gram频率,KWIC等 词为单位 词/文的长, n-gram, 同现,KWIC等 基于文节为单位(日语) 文节长,文节的n-gram,文节同现,文节模式等 以文本为单位进行统计 同志社大学 Doshisha University Jin Mingzhe
26
MLTP+R的框架 文本处理 结构化 利用R进行各种分析 文本库 词法分析 长度 n-gram, 同现 句法分析 词典 语义分析 模式
同志社大学 Doshisha University Jin Mingzhe
27
MLTP画面 2.指定文本种类 1.指定语种 3.指定文本 4.指定统计的文本 同志社大学 Doshisha University
Jin Mingzhe
28
指定词性统计词频 1.指定WordPOS 2.指定n-gram 3.指定Cutoff值 4.指定数据形式 5.行/列为文本 7.确认
6.选择词性 8.统计 9.保存 同志社大学 Doshisha University Jin Mingzhe
29
登录滤掉词句 菜单Setting里的Stop Words 1.指定WordPOS 2.登入语素 5.从新统计 4.关闭 3.保存
同志社大学 Doshisha University Jin Mingzhe
30
最终的统计 通过观察没有再除外的元素后进行统计 同志社大学 Doshisha University 统计分析用的数据最好是行是文本
指定保存的文件夹和文件名 保存 同志社大学 Doshisha University Jin Mingzhe
31
统计分析 MLTP的现在版本,如果R是2.13.0版本,可在MLTP上直接用R进行分析 同志社大学 Doshisha University
Jin Mingzhe
32
统计分析画面 同志社大学 Doshisha University 执行R指令区域 统计操作菜单 数据变换操作按钮 指令的结果输出区域
Jin Mingzhe
33
利用菜单的基本统计功能 文本的基本信息 检索(KWIC,可用正则表达式) Zipf定律,词汇丰富度计算(12种方法)
TF-IDF计算,特征词的选取与图示 词/短语的网络拓扑分析 文本特征分析(主成分分析,对应分析等) 分本聚类(层次聚类,k-means,多维标度法等) 分本分类(k-NN法,决策树,RF法,SVM法等) 同志社大学 Doshisha University Jin Mingzhe
34
统计分析的例子 同志社大学 Doshisha University Jin Mingzhe
35
日本的文本挖掘方面的书籍 同志社大学 Doshisha University 実践 ブログ・リサーチ,同文館出版,2011-12
実践 ブログ・リサーチ,同文館出版, 特許情報のテキストマイニング―技術経営のパラダイム転換,ミネルヴァ書房, テキストマイニングで広がる看護の世界,ナカニシヤ出版 ( ) テキストマイニングハンドブック,東京電機大学出版局, 数量化理論とテキストマイニング,日科技連出版社, テキストデータの統計科学入門,岩波書店, 人文・社会科学のためのテキストマイニング,誠信書房, Rによるテキストマイニング入門,森北出版, テキストマイニング入門―経営研究での活用法,白桃書房, 事例で学ぶテキストマイニング,共立出版, 顧客の声マネジメント―テキストマイニングで本音を「見る」,オーム社, テキストマイニングを使う技術/作る技術,東京電機大学出版局, 福祉・心理・看護のテキストマイニング入門,中央法規出版, 同志社大学 Doshisha University Jin Mingzhe
36
文本挖掘与统计分析的主要应用 Web信息搜索,博客管理,对于产品的评价信息 网络风险管理 企业与产品信息管理和分析 医疗,护理
经济/金融信息 语料库分析,文体分析,法语言学 只要与文本有关领域都有应用空间 : 日本語教育支援システム研究会(CASTEL/J)編纂の講談社ブルーバッ. クス KYコーパスとは、90人分のOPIテープを文字化した言語資料である。90人の被験者を母語別に見ると、中国語、英語、韓国語がそれぞれ30人ずつであり、さらに、その30人のOPIの判定結果別の内訳は、それぞれ、初級5人、中級10人、上級10人、超級5人ずつ ... 会話参加者は女性161名、男性37名 同志社大学 Doshisha University Jin Mingzhe
37
文本的统计 字符,单词,音节,短语,文…… 频率 长度(单词/文的长度分布) n-gram 共现 :
同志社大学 Doshisha University Jin Mingzhe
38
数据的格式(变量xi是词……) x1 x2 x3 xi xm label text ID1 37 41 25 ・・・ 12 4 A ID2
46 52 65 5 : IDj 13 44 43 10 IDi-1 32 6 9 B IDn 30 20 15 8 2 Z 同志社大学 Doshisha University Jin Mingzhe 38
39
问卷/市场调查 同志社大学 Doshisha University Jin Mingzhe
40
词与学科的对应关系 同志社大学 Doshisha University Jin Mingzhe
41
学科/系之间明显差异的词(前50个) 同志社大学 Doshisha University 关于学费是F学科 关于学习环境是B学科
Jin Mingzhe
42
个别文节共现拓扑网络 同志社大学 Doshisha University Jin Mingzhe
43
词的共现关系(关联分析) 在校学生的问卷调查 同志社大学 Doshisha University Jin Mingzhe
44
词共现与学科的对应散图 同志社大学 Doshisha University Jin Mingzhe
45
文体统计研究 1851年,英国数学家A.De Morgen提出词长是文章风格的特征
1867年,英国的Cambell利用特定的单词的使用频率对于希腊哲学家Platon的作品的执笔顺序问题进行了推定 1887年,美国Ohio州立大学地球物理学教授Mendenhall指出单词的长度具有作者的特征,发表在≪科学 Science,IX≫ 1938年统计学者G. U. Yule利用文的长度进行了作者归属的统计分析,1944年发表了《文学词汇的统计分析》一书 同志社大学 Doshisha University Jin Mingzhe
46
文本分类及作者的识别 特征信息 模式识别或分類 字符的信息 线性模型 单词的长度,文的长度 贝叶斯模型 词的频率 决策模型 n-gram
共现关系 线性模型 贝叶斯模型 决策模型 神经网络模型 支持向量 集成学习法 同志社大学 Doshisha University Jin Mingzhe
47
问题 文本当中提取什么? 重点在于文本的内容--名词 重点在于评价 --形容词 著者的特征 --???? 如何处理?
重点在于评价 --形容词 著者的特征 --???? 如何处理? 统计分析,数据挖掘 同志社大学 Doshisha University Jin Mingzhe
48
提出的著者特征的抽取方法(日语) 单词的长度,文的长度, 段落的长度,文头/尾的模式 过去 逗号点法 字符信息
逗号点法 字符信息 助词的n-gram 文的骨架/文型 词性的n-gram 词法 文节的模式特征 句法 : 过去 我 同志社大学 Doshisha University Jin Mingzhe
49
基于逗号用法数据的树形图 逗号点在什么字的后面 井上 靖 中島 敦 三島 由紀夫 谷崎 潤一郎
中島 敦 三島 由紀夫 谷崎 潤一郎 同志社大学 Doshisha University Jin Mingzhe
50
长谷川海太郎的三个笔名的文章 中島 長谷川 三島 井上 同志社大学 Doshisha University Jin Mingzhe
51
三个笔名的更多作品 基于逗号前面的助词的数据(45个变量) 同志社大学 Doshisha University Jin Mingzhe
52
基于论文中逗号数据的聚类树 佐藤 今井 安本 同志社大学 Doshisha University Jin Mingzhe
53
(1) 提取信息比较简单 (2) 判别作者效果较好 (3) 但短的文章,逗号很少的文章无法应用
逗点的点法 (1) 提取信息比较简单 (2) 判别作者效果较好 (3) 但短的文章,逗号很少的文章无法应用 助词的用法 日本文章中必须用助词 大约占全体词汇的30%--40% 同志社大学 Doshisha University Jin Mingzhe
54
助词的数据 文章 か が て で と に の ・・・・・・ その他 I ・・・・・・ 57 I ・・・・・・ 50 ・ ・ ・ ・ M ・・・ ・・・ 39 ・ ・ ・ 同志社大学 Doshisha University Jin Mingzhe
55
基于文章中的助词的主成分散图 井上 靖 中島 敦 三島 由紀夫 同志社大学 Doshisha University Jin Mingzhe
56
助词的n-gram分布 文:・・・は・・・で・・・を・・・ながら・・・の・・・ 項目1 項目2 項目3 ・・・ Unigram Bigram
wa de o nagara no 項目1 項目2 項目3 ・・・ Unigram は で を Bigram は:で で:を を:ながら Trigram は:で:を で:を:ながら を:ながら:の
57
作者识别的精度 非有名作者,短文,助词的n-gram 11名学生写的作文 Size Unigram Bigram Trigram
全文(1124字) 94.82 98.00 99.09 约1/2(562) 90.09 92.55 97.32 约1/3(375) 84.46 88.05 94.91 同志社大学 Doshisha University Jin Mingzhe
58
词性的n-gram ・・・<名詞>・・・<助詞>、<読点>・・・<副詞>・・・<形容>・・・<動詞>・・・<名詞>・・・<助動>・・・<助動>・・・・・・ Unigram <名詞>, <助詞>, <読点>, <助動>・・・・・・ Bigram <名詞><助詞>, <助詞><読点>, <読点> <助動> ・・・・・・ trigram <名詞><助詞><読点>, <助詞> <読点> <助動> ・・・・・・ 同志社大学 Doshisha University Jin Mingzhe
59
文节的模式 名詞_助詞 一般_の サ変_に関する サ変_は 副詞_助詞 古く_から 動詞_動詞_助動詞_記号 自立_接尾__助動詞_句点
文 節 文節のパターン1 文節のパターン2 * 0 1D 0_ 書き手 名詞,一般, の 助詞,連体化 名詞_助詞 一般_の * 1 2D 0_ 同定 名詞,サ変接続, に関する 助詞,格助詞,連語 サ変_に関する * 2 3D 0_ 研究 名詞,サ変接続 は 助詞,係助詞 サ変_は * 3 4D 0_ 古く 副詞,助詞類接続 から 助詞,格助詞,一般 副詞_助詞 古く_から * 4 -1D 0_ 行わ 動詞,自立 れ 動詞,接尾 た 助動詞 。 記号,句点 動詞_動詞_助動詞_記号 自立_接尾__助動詞_句点 同志社大学 Doshisha University Jin Mingzhe
60
实证所用的作品 著者 作品数 ID-作品名 芥川龍之介 30 Akuda01: 或阿呆の一生・・・ 太宰治
Dazai01: おさん, ・・・ 泉鏡花 Izumi01:いろ扱ひ, ・・・ 宮沢賢治 20 Miya01:かしはばやしの夜, ・・・ 森鴎外 Mori01:かのように, ・・・ 夏目漱石 Natsu01それから1, ・・・ 岡本綺堂 Okada01:ゆず湯, ・・・ 佐々木味津三 Sasa01:なぞの八卦見, ・・・ 島崎藤村 Sima01:ある女の生涯, ・・・ 与謝野晶子 Yosa01:-三面一体の生活へ,・・・ 同志社大学 Doshisha University Jin Mingzhe
61
結果(1) Random Forest (leave-one-out cross-validation), 99.23%
推 測 値 実測値 Ak Da Iz Mi Mo Na Ok Sa Si Yo Akuta 0 0 Dazai Izumi Miyazawa Mori Natsume Okamoto Sasaki Simazaki Yosano 同志社大学 Doshisha University Jin Mingzhe
62
例1.川端康成作品的嫌疑 川端康成1968年获得若贝尔文学奖
他的代表作品『山の音』,『みずうみ』,『古都』,『雪国』,『千羽鶴』,『眠れる美女』,『古都』等 川端从1960年到1961年之间服用大量的睡眠药,不用药无法睡觉 可这个期间同时写出了『眠れる美女』,『古都』, 『美しさと哀しみと』 (1) 眠れる美女, みずうみ,可能是三島由紀夫(弟子)代笔 (2) 晚年的作品有些是弟子北條誠和沢野久雄代筆 同志社大学 Doshisha University Jin Mingzhe
63
同志社大学 Doshisha University
発表年 川端康成 北条誠 沢野久雄 三島由紀夫 ~1950年 伊豆の踊子など11作品,山の音49、千羽鶴49 盗賊48,仮面の告白49 1950年~1955年 舞姫50, 波千鳥53,みづうみ54 愛の渇き50、青の時代50、日曜日50、遠乗会50,密薬52,卵53 1956年~ 1960年 女であること56 雨の夜57、三分咲き57、緑なる人57 炎上57 潮騒54、詩を書く少年54, 沈める滝55、海と夕焼け55,金閣寺56、女方57 1960年~1965年 眠れる美女60、 古都61、 美しさと哀しみと61,片腕63 つゆの道60,朝母の呼ぶ声61,アカシヤの唄63,山のむらさきに64, 果樹園の道60、粉雪60,親しい心61、落葉61 百万円煎餅60,憂国61、月62、帽子の花62,可哀そうなババ63 1965年~1970年 秋の野に68,ほろびぬ美69、夕日野69 赤い夕焼け65,五百マイル66, バラが咲いた67,月の砂漠68 孤客66、晩年の石66,雨しきり69、遠い音69,古調69 月澹荘奇譚65,荒野より66, 時計67,蘭陵王69 1970年~ 髪は長く70,三島由紀夫72、友人の妻72 花はなんの花73 同志社大学 Doshisha University Jin Mingzhe
64
基于文节的模式聚类分析图 同志社大学 Doshisha University Jin Mingzhe
65
高频率60文节的对应分析 川端康成 三島由紀夫 同志社大学 Doshisha University Jin Mingzhe
66
助词的聚类树图(效果较差) 同志社大学 Doshisha University Jin Mingzhe
67
例2.文本的写作时间能否推测? 芥川龙之介的助词「は(wa)」使用率 同志社大学 Doshisha University
Jin Mingzhe 67
68
格助词「が(Ga)」的频率 格助詞「が」の使用率 作品の番号 同志社大学 Doshisha University Jin Mingzhe
69
芥川龙之介作品的系统图 大正 明治 同志社大学 Doshisha University Jin Mingzhe 69
70
芥川龙之介的写作时期的预测 助词的词频为自变量,写作时间为因变量的 多元回归,机器学习法 同志社大学 Doshisha University
Jin Mingzhe 70
71
例3. 匿名信是杀人犯写的吗? 2003年5月日本警示厅搜查一科找我 三年没有破案 有人死亡,车祸,可能是他杀 哥哥给他上了生命保险
例3. 匿名信是杀人犯写的吗? 2003年5月日本警示厅搜查一科找我 三年没有破案 有人死亡,车祸,可能是他杀 哥哥给他上了生命保险 警示厅收到两封信,一封为目击者的信,另一封为自供信兼遗书。 有哥哥写的少量文章 鉴定:两封信是否是哥哥写的 同志社大学 Doshisha University Jin Mingzhe
72
相关文档(为领取保险金的杀人案) 把文本M4分成2个文本。奇数文和偶数文(M4-1R,M4-2R) 关于另一案件的文档(M1) 1677
同志社大学 Doshisha University Jin Mingzhe
73
能否鉴定写信的犯人? 录像 同志社大学 Doshisha University Jin Mingzhe
74
例4.失踪后的手机邮件是谁写的? 一女性失踪 失踪后她的手机发出了一些电子邮件 邮件是谁写的? 她本人呢?,还是她的男朋友(嫌疑人)呢?
把两人的电子邮件进行分析 同志社大学 Doshisha University Jin Mingzhe
75
失踪人和嫌疑人的电子邮件 PC上的电子邮件 手机邮件 失踪人 嫌疑人 失踪人 嫌疑人 同志社大学 Doshisha University
Jin Mingzhe
76
非计量多次元尺度法の散布图 同志社大学 Doshisha University Jin Mingzhe
77
手机邮件的识别 20人,共5724件邮件 性别 长度 同志社大学 Doshisha University Jin Mingzhe
78
テキスト情報による金融市場の逐次外挿予測 Out-of-Sample Test of Text Mining in Financial Markets
同志社大学 Doshisha University Jin Mingzhe
79
NLP和文本挖掘/计算的现状和将来 1990~2005,分词与句法研究和应用 2000~2010,文本挖掘与计算和应用 表层信息的统计分析
2010~ ,文本的语义处理和应用 从文本表层信息走向深层的内容 具有可靠性高的QA系统,如IBM的DeepQA 知识库的开发与应用 期待计算语言研究的成果 同志社大学 Doshisha University Jin Mingzhe
80
谢谢大家!请批评指正! 结语 文本数据统计科学的前景无限宽广!(我) 适合于文本分析的方法有待于开发! 文本挖掘/计算统计分析不是万能
通过频率信息的量的差异和特征,要挖掘背后的深层原因 谢谢大家!请批评指正! 同志社大学 Doshisha University Jin Mingzhe
Similar presentations