(mjin@mail.doshisha.ac.jp) 日本人文社会科学中的文本计算 同志社大学 文化情报学部 金 明哲 (mjin@mail.doshisha.ac.jp) 同志社大学 Doshisha University Jin Mingzhe.

Slides:



Advertisements
Similar presentations
網站經營心得分享 林文宗 明新科技大學資管系助理教授 麟瑞科技顧問 工研院資通所無線通訊技術組顧問 明新科技大學電算中心網路組組長 國立清華大學資訊工程學系博士.
Advertisements

德庆县国家税务局 二 O 一五年六月. 5 税目注释 优惠政策 抵扣政策 纳税申报 6 其他征管问题 1 电池、涂料消费税政策.
1. 卸下标签 身心松静 关注健康! 2. 坦诚开放 互信互赖 社会支持! 3. 排除干扰 倾心体悟 创造协作! 4. 连接自己 享受成长 和谐社会! 恳请与提醒.
县级实施妇女儿童发展纲要 的途径和方法 —— 制定和实 施县级跨部门行动计划 国务院妇儿工委办公室 儿童处 2014 年 6 月.
青少年性健康教學資源簡介 台灣性教育學會 主講人:蔡秉兼 桃園市立壽山高級中學健康與護理教師 1.
企业文化与核心价值观 主讲:孟凡驰 教授 中交四航局. 2 目 录 一、企业文化的目的价值恒久性与工具价值实践性 二、企业文化管理学特征 三、企业文化与企业发展战略 四、企业文化整合、提炼、培育和建设的目的 五、集团文化与分公司文化 六、企业核心价值观.
未婚懷孕:你想清楚了嗎. 家事?國事?天下事? 台灣未成年小媽媽 比例冠亞洲 衛生署統計台灣性行為低齡化,最小的僅 十二歲半。 未成年懷孕,台灣是千分之十二點九五。 九月墮胎潮.
中国宏观经济数据库 ( 国泰安研究服务中心 ). 一、数据库简介  “ 国泰安研究服务中心 ” ( )是 中国经济、金融、会计研究的门户网站,主要从事 股票市场、上市公司、基金市场、期货市场、债券 市场、货币市场等经济数据的采集和研究服务。  国泰安研究服务中心由数据服务、研究服务与学者.
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
分享人: 50屆英文系會長楊嘉賢 27屆基服社社長杜義容
竹苗區100學年度擴大高中職 免試入學宣導說明會
窦娥冤 关汉卿 感天动地 元·关汉卿.
第八章 组织文化的整合 ——并购中的文化整合(二) 小组成员:浦若蓉、朱谷一、贾彦彦.
性平三法及兒少相關保護法令之介紹與宣導 華誠聯合律師事務所 蔡其龍律師.
感恩的心 作詞: 陳樂融 作曲: 陳志遠 鋼琴編曲: 盧能榮. 感恩的心 作詞: 陳樂融 作曲: 陳志遠 鋼琴編曲: 盧能榮.
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
急難救助措施簡介 內政部社會司 99年6月7日.
第九单元 市场预测与调查报告 第一讲 市场预测 第二讲 调查报告 第三讲 案例分析 总目录.
『生涯規劃系統』教育訓練資料 資料提供 : 智盟科技 協助彙編 : 研修部.
104年度獎勵私立老人福利機構及補助團體、財團法人老人福利機構提供多元及充實服務方案實施計畫 暨 104年度老人福利機構及居家服務單位優質人力獎勵計畫 申請說明會 臺北市政府社會局老人福利科
知其不可而为之.
生物醫學統計學.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
“淡雅浓香 中国风尚” 山东低度浓香白酒整合传播侧记
图书馆直属党总支 党风廉政建设专题党课.
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
體育教學法律問題探討 王凱立 育達商業科技大學 助理教授.
第十六章 股票交易資訊分析與試算 課前指引 目前最熱門的理財方式莫過於投資股票市場,因此本章首先講解如何從美國股市匯入重要資料,之後教授使用WEB查訊功能,匯入台灣股市即時或盤後交易資訊到Excel工作表中,再利用資料分析工具來協助瞭解個股。最後再利用Excel圖表功能來繪製成股票K線圖,這是不是很有趣及實用呢?
------全国教育科学规划办公室 吴键 副研究员
Make the dream come true
日本中国语学会关东支部扩大会议・中央大学
公关协调 能力目标 初步学会对内及对外公众关系协调的基本方法。 知识目标 掌握组织内外公众协调的原理和方法。
欢迎南京市政治学科的教研同仁 光临指导.
课题:人的高贵在于灵魂 湘潭就业职校:杨秀红.
指導教授:古錦松 分享同學: 蔡斗溍、陳姿云 陳俊仰、陳國睿(助教)
第十一章:思路与谋篇 教学内容: 1、思路及有关概念; 2、谋篇(结构)的原则; 3、谋篇的方法(层次段落安排, 过度与照应,开头与结尾).
绪 论  珍惜大学生活 开拓新的境界.
第二节 工业地域的形成 工业联系 工业集聚 工业地域
汉字的构造.
端午的鸭蛋 制作者 浙江省余姚市兰江中学 徐益明.
诵读欣赏 古代诗词三首.
均衡城鄉發展政策理念落實的挑戰與展望 --均衡城鄉發展推動方案-- 富麗農村、風情小鎮示範計畫 主講人:廖耀東 副組長
當代國際企業.
蓝卓移动校园在开放教育 领域中的广泛应用.
為孩子編織一個支持網  台北市家庭暴力暨性侵害防治中心.
转正述职报告 乐恩公司 史航
99學年度第二學期人文典籍閱讀 小組讀書報告 指導老師:陳鎮亞 報告書名:印象洗腦術 組長:呂承澤( )
金融控股公司 黃健民 2013/03/05.
贴近教学 服务师生 方便老师.
國內發展PACS之回顧與展望 黃興進 彭振興 連俊瑋 國立中正大學資訊管理學系 國立中正大學醫療資訊管理研究中心
指導教授:楊賀雯 指導研究生:許芷菱、邱以欣 學生:曾婉瑜、林立婷、黃馨慧、顏慈萱、李欣怡、黃禹嘉
传媒学院2013年度团委工作 总结分析报告
作業系統 補充: 雲端運算.
语言模型.
市場調查與分析 Marketing Research and Analysis
2015年“服务之星”Q&A.
國際競逐時代(海外探險) 漢人、日本人 荷蘭、西班牙.
第六章:N元语法模型.
The 10 Most Watched Ads on YouTube in 2016
網際網路版人力資源管理系統 (WebHR)
網際網路版人力資源管理系統 (WebHR)
知识产权在中小企业中的作用 讲座内容 一、知识产权在发达国家及知名企业中的地位 二、知识产权的基本概念及其特点
如何制订幼儿园园本培训工作计划 大连亿达世纪城幼儿园 姜承华 2011年3月10日.
文字和網站探勘 學習目標 說明文字探勘與了解文字探勘需求 分辨文字探勘與資料探勘 了解文字探勘的不同應用 了解執行文字探勘專案的流程
小学数学第一册 10的认识 锦山小学 高婧媛.
服務教育組 歡迎您.
第10章 網路問卷調查.
银川社保网上申报 宁夏人力资源和社会保障 网上服务大厅操作
全國高級中等學校專業群科 食品群專題組之專題製作 經驗分享 報告者:北門農工 (劉軒如).
Presentation transcript:

(mjin@mail.doshisha.ac.jp) 日本人文社会科学中的文本计算 同志社大学 文化情报学部 金 明哲 (mjin@mail.doshisha.ac.jp) 同志社大学 Doshisha University Jin Mingzhe

内容 文本挖掘与计算 文本挖掘与计算的商用软件 日本企业的文本挖掘与计算的现状 文本计算的免费软件 文本计算统计分析软件MLTP+R 文本计算应用的相关领域 文体计算(Stylometry)分析(两个实例) 文体计算与法语言学(两个实例) 同志社大学 Doshisha University Jin Mingzhe

现实世界的信息 图像,语音,文字,数字 可获得的大部信息是以文本形式 如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面等 由于电子形式的文本信息飞速增长 需要从文本数据中挖掘信息和知识 同志社大学 Doshisha University Jin Mingzhe

文本挖掘与计算 文本计算科学 Googl检索结果 2010年12月18日 text mining 5,760,000 textual data mining 1,010,000 statisitcal analysis of text/textual data 85,300 statisitcal analysis of corpus/corpora 20,520 computation of text /textual 10,560 text /textual computation 2,674 text/textual computing 35,241 computing text /textual 91,788 computation of corpus/corpora 4,002 quantitative text/textual analysis 189,400 文本计算科学 同志社大学 Doshisha University Jin Mingzhe

文本挖掘/计算 文本挖掘(Text Mining)是一个从文本数据中获取用户感兴趣的模式,转换为有价值的信息和知识的过程。 文本挖掘是由数据挖掘的词汇派生 数据挖掘所用的是表格形式的数据(也称结构化的数据) 而文本挖掘所用的是非结构化的数据 核心:NLP技术,数据挖掘/统计分析 同志社大学 Doshisha University Jin Mingzhe

文本挖掘的主要内容与计算 文本挖掘 统计计算 文本摘要 文本元素的抽取 ??? 文本元素的建模 检验统计量,信息熵等 文本特征与结构分析 文本挖掘 统计计算 文本摘要 文本元素的抽取 文本元素的建模 文本特征与结构分析 文本聚类 文本分类 文本元素的趋势预测 文本元素的关联分析 ??? 检验统计量,信息熵等 统计指数与建模 主成份/对应分析/SOM等 层次/k平均聚类法 判别分析/模式识别 回归分析/生存分析 关联/相关分析 同志社大学 Doshisha University Jin Mingzhe

词/句法分词工具 形态素分析 JUMAN(1992年,京都大学 长尾真) ChaSen(茶筅,1997年,奈良科大,松本裕治) MeCab(2002年,京都大学&NTT,工藤拓) Breakfast(富士通),SuMoM0(NTT),KAKASI(佐藤雅彦) 句法分析 JUMAN/KNP(1993年,京都大学 长尾真) CaBoCha(南瓜,2001年,奈良科大学,工藤拓) 注:奈良科大=奈良先端科学技术大学院大学 同志社大学 Doshisha University Jin Mingzhe

形态素解析结果 同志社大学 Doshisha University Jin Mingzhe

句法分析(构文解析) 不用语树,因为语树不适合于日语 以文节为单位切分、每个文节在其右方至少有一个文节和它对应。 这种对应关系叫“係受関係”。第几个文节与第几个文节缔结关系( Dependency Analysis ) 切分文节的精度达95%左右 係受関係的精度达90%左右 同志社大学 Doshisha University Jin Mingzhe

句法分析的输出结果 同志社大学 Doshisha University Jin Mingzhe

日本的商业文本挖掘的软件(1) 厂 商 名 软 件 名 称 QUALICA(小松) 野村综合研究所 日本电子计算 电力计算中心 厂 商 名 软 件 名 称 QUALICA(小松) 野村综合研究所 日本电子计算 电力计算中心 三菱电子信息系统 数理系统 UNISYS NTT VextMiner TRUE TELLER WordMiner Trend Scooper DIAMining®EX Text Minig Studio MiningPro Knowledgeocean 1997年开始出售 中文版 ( 2003/12/10) 2001年9月 Ver.1.0 现在也有中文版 同志社大学 Doshisha University Jin Mingzhe

日本的商业软件(2) 厂 商 名 软 件 名 称 SPSS SAS&小松 NEC JUST YSTEMS 日科技連 富士通 : 厂 商 名 软 件 名 称 SPSS SAS&小松 NEC JUST YSTEMS 日科技連 富士通 : Text Minig for Climentine CRM(VextMiner ) CSVIEW/TopicScope CB Market Intelligence SimpleWord Saas QRMining 同志社大学 Doshisha University Jin Mingzhe

野村证卷的 TRUE TELLER 450多个企事业单位利用,现在可处理中文 同志社大学 Doshisha University Jin Mingzhe

松下电工公司的voc21系统 用野村证卷的TRUE TELLER 同志社大学 Doshisha University Jin Mingzhe 14

佳能的CATS(Call Analysis Tracking System) 2004年09月 “提高产品质量10倍”的运动 挖掘用户的“声音”信息

文本挖掘改善集团内各公司的业务(欧姆龙市场营销) 同志社大学 Doshisha University Jin Mingzhe

三菱电机信息系统(株)的DIAMings http://www.mdis.co.jp/products/diamining/ 同志社大学 Doshisha University Jin Mingzhe

三菱公司内的文本挖掘系统发展过程 2006年客户服务管理系统ARS(BMC Remedy Action Request System®) 之后ARS连接CTI(Computer Telephony Integration) 每月对于约4万件的咨询 2010年12月开始新的文本挖掘系统 同志社大学 Doshisha University Jin Mingzhe

并用DIAMining EX和VextMiner 使用两个文本挖掘引擎 把握整个趋势 检索概念 http://www.mitsubishielectric.co.jp/meltopia/backnumber/2011/06/case04.html 同志社大学 Doshisha University Jin Mingzhe

日本东邦大学与IBM合作 2011年6月6日 开发研究医疗文本信息以及时间序列数据的整合应用系统 大学医院:利用积累的大量的电子文本以及时间序列信息的视觉化信息,力求改善医疗质量和安全 IBM:通过现场数据进行文本挖掘技术的开发以及推广研究成果,特别是语义处理技术的研究和开发 同志社大学 Doshisha University Jin Mingzhe

富士通的文本挖掘软件2011/12/16日开始出售 文档和互联网上的产品投诉(Claim)信息抽取及分析 同志社大学 Doshisha University Jin Mingzhe

Text Mining Studio 词/句为单位 配有词典/用户词典 基本信息 频率分析 特色语分析 特征分析 情感分析 话题分析 时间序列分析 目前大学里用户较多 同志社大学 Doshisha University Jin Mingzhe

人文社会学领域中文本计算的问题 利用计算的手法进行文本分析的人不少,但不知无从下手 编程难度大,计算手法知识贫乏 商用软件价格昂贵 渴望使用方便的免费软件 理工科:有能力不想做 文科:想做没有能力 同志社大学 Doshisha University Jin Mingzhe

免费文本计算软件 ChaKi(茶器,奈良科大,松本裕治),分词后的结果装入数据库SQL里,管理切分好的语料 TTM(TinyTextMiner), 松村真宏(大阪大学), 三浦 麻子(关西学院大学)输入的是CSV文档,输出6种统计数据表,分析要用统计软件 KH-coder, 樋口耕一(立命館大学),输入的是一个文档 RMecab, 石田基広(徳島大学),在免费统计软件R运行分词软件,可直接进行挖掘与统计分析 HTML+R(MLTP(MultiLingual Text Processor+ R), 金明哲(同士社大学) 同志社大学 Doshisha University Jin Mingzhe

MLTP+R(文本统计分析工具) MLTP(MultiLingual Text Processor)多语种文本处理器(日文, 中文, 韩文, 英文,蒙文等) 利用Java开发 MLTP+R: 文本处理器MLTP上附加了统计分析软件R 字符为单位 文本的大小,文长,n-gram频率,KWIC等 词为单位 词/文的长, n-gram, 同现,KWIC等 基于文节为单位(日语) 文节长,文节的n-gram,文节同现,文节模式等 以文本为单位进行统计 同志社大学 Doshisha University Jin Mingzhe

MLTP+R的框架 文本处理 结构化 利用R进行各种分析 文本库 词法分析 长度 n-gram, 同现 句法分析 词典 语义分析 模式 同志社大学 Doshisha University Jin Mingzhe

MLTP画面 2.指定文本种类 1.指定语种 3.指定文本 4.指定统计的文本 同志社大学 Doshisha University Jin Mingzhe

指定词性统计词频 1.指定WordPOS 2.指定n-gram 3.指定Cutoff值 4.指定数据形式 5.行/列为文本 7.确认 6.选择词性 8.统计 9.保存 同志社大学 Doshisha University Jin Mingzhe

登录滤掉词句 菜单Setting里的Stop Words 1.指定WordPOS 2.登入语素 5.从新统计 4.关闭 3.保存 同志社大学 Doshisha University Jin Mingzhe

最终的统计 通过观察没有再除外的元素后进行统计 同志社大学 Doshisha University 统计分析用的数据最好是行是文本 指定保存的文件夹和文件名 保存 同志社大学 Doshisha University Jin Mingzhe

统计分析 MLTP的现在版本,如果R是2.13.0版本,可在MLTP上直接用R进行分析 同志社大学 Doshisha University Jin Mingzhe

统计分析画面 同志社大学 Doshisha University 执行R指令区域 统计操作菜单 数据变换操作按钮 指令的结果输出区域 Jin Mingzhe

利用菜单的基本统计功能 文本的基本信息 检索(KWIC,可用正则表达式) Zipf定律,词汇丰富度计算(12种方法) TF-IDF计算,特征词的选取与图示 词/短语的网络拓扑分析 文本特征分析(主成分分析,对应分析等) 分本聚类(层次聚类,k-means,多维标度法等) 分本分类(k-NN法,决策树,RF法,SVM法等) 同志社大学 Doshisha University Jin Mingzhe

统计分析的例子 同志社大学 Doshisha University Jin Mingzhe

日本的文本挖掘方面的书籍 同志社大学 Doshisha University 実践 ブログ・リサーチ,同文館出版,2011-12 実践 ブログ・リサーチ,同文館出版,2011-12 特許情報のテキストマイニング―技術経営のパラダイム転換,ミネルヴァ書房, 2011-03  テキストマイニングで広がる看護の世界,ナカニシヤ出版 (2010-12)  テキストマイニングハンドブック,東京電機大学出版局, 2010-07    数量化理論とテキストマイニング,日科技連出版社, 2010-05   テキストデータの統計科学入門,岩波書店, 2009-04-28   人文・社会科学のためのテキストマイニング,誠信書房, 2009-04  Rによるテキストマイニング入門,森北出版, 2008-12      テキストマイニング入門―経営研究での活用法,白桃書房,2008-02 事例で学ぶテキストマイニング,共立出版, 2008-01  顧客の声マネジメント―テキストマイニングで本音を「見る」,オーム社, 2007-05 テキストマイニングを使う技術/作る技術,東京電機大学出版局,2006-11 福祉・心理・看護のテキストマイニング入門,中央法規出版, 2005-07 同志社大学 Doshisha University Jin Mingzhe

文本挖掘与统计分析的主要应用 Web信息搜索,博客管理,对于产品的评价信息 网络风险管理 企业与产品信息管理和分析 医疗,护理 经济/金融信息 语料库分析,文体分析,法语言学 只要与文本有关领域都有应用空间 : 日本語教育支援システム研究会(CASTEL/J)編纂の講談社ブルーバッ. クス KYコーパスとは、90人分のOPIテープを文字化した言語資料である。90人の被験者を母語別に見ると、中国語、英語、韓国語がそれぞれ30人ずつであり、さらに、その30人のOPIの判定結果別の内訳は、それぞれ、初級5人、中級10人、上級10人、超級5人ずつ ... 会話参加者は女性161名、男性37名 同志社大学 Doshisha University Jin Mingzhe

文本的统计 字符,单词,音节,短语,文…… 频率 长度(单词/文的长度分布) n-gram 共现 : 同志社大学 Doshisha University Jin Mingzhe

数据的格式(变量xi是词……) x1 x2 x3 xi xm label text ID1 37 41 25 ・・・ 12 4 A ID2 46 52 65 5 : IDj 13 44 43 10 IDi-1 32 6 9 B IDn 30 20 15 8 2 Z 同志社大学 Doshisha University Jin Mingzhe 38

问卷/市场调查 同志社大学 Doshisha University Jin Mingzhe

词与学科的对应关系 同志社大学 Doshisha University Jin Mingzhe

学科/系之间明显差异的词(前50个) 同志社大学 Doshisha University 关于学费是F学科 关于学习环境是B学科 Jin Mingzhe

个别文节共现拓扑网络   同志社大学 Doshisha University Jin Mingzhe

词的共现关系(关联分析) 在校学生的问卷调查 同志社大学 Doshisha University Jin Mingzhe

词共现与学科的对应散图 同志社大学 Doshisha University Jin Mingzhe

文体统计研究 1851年,英国数学家A.De Morgen提出词长是文章风格的特征 1867年,英国的Cambell利用特定的单词的使用频率对于希腊哲学家Platon的作品的执笔顺序问题进行了推定 1887年,美国Ohio州立大学地球物理学教授Mendenhall指出单词的长度具有作者的特征,发表在≪科学 Science,IX≫ 1938年统计学者G. U. Yule利用文的长度进行了作者归属的统计分析,1944年发表了《文学词汇的统计分析》一书 同志社大学 Doshisha University Jin Mingzhe

文本分类及作者的识别 特征信息 模式识别或分類 字符的信息 线性模型 单词的长度,文的长度 贝叶斯模型 词的频率 决策模型 n-gram 共现关系 线性模型 贝叶斯模型 决策模型 神经网络模型 支持向量 集成学习法 同志社大学 Doshisha University Jin Mingzhe

问题 文本当中提取什么? 重点在于文本的内容--名词 重点在于评价 --形容词 著者的特征 --???? 如何处理? 重点在于评价 --形容词 著者的特征 --???? 如何处理? 统计分析,数据挖掘 同志社大学 Doshisha University Jin Mingzhe

提出的著者特征的抽取方法(日语) 单词的长度,文的长度, 段落的长度,文头/尾的模式 过去 逗号点法 字符信息 逗号点法 字符信息 助词的n-gram 文的骨架/文型 词性的n-gram 词法 文节的模式特征 句法 : 过去 我 同志社大学 Doshisha University Jin Mingzhe

基于逗号用法数据的树形图 逗号点在什么字的后面 井上 靖 中島 敦 三島 由紀夫 谷崎 潤一郎 中島 敦 三島 由紀夫 谷崎 潤一郎 同志社大学 Doshisha University Jin Mingzhe

长谷川海太郎的三个笔名的文章 中島 長谷川 三島 井上 同志社大学 Doshisha University Jin Mingzhe

三个笔名的更多作品 基于逗号前面的助词的数据(45个变量) 同志社大学 Doshisha University Jin Mingzhe

基于论文中逗号数据的聚类树 佐藤 今井 安本 同志社大学 Doshisha University Jin Mingzhe

(1) 提取信息比较简单 (2) 判别作者效果较好 (3) 但短的文章,逗号很少的文章无法应用 逗点的点法 (1) 提取信息比较简单 (2) 判别作者效果较好 (3) 但短的文章,逗号很少的文章无法应用 助词的用法 日本文章中必须用助词 大约占全体词汇的30%--40% 同志社大学 Doshisha University Jin Mingzhe

助词的数据 文章 か が て で と に の ・・・・・・ その他 I1 19 125 218 82 135 168 321 ・・・・・・ 57 I2 24 121 217 73 124 148 288 ・・・・・・ 50 ・ ・ ・ ・ M1 12 150 186 48 74 191 391 ・・・ ・・・ 39 ・ ・ ・ 同志社大学 Doshisha University Jin Mingzhe

基于文章中的助词的主成分散图 井上 靖 中島 敦 三島 由紀夫 同志社大学 Doshisha University Jin Mingzhe

助词的n-gram分布 文:・・・は・・・で・・・を・・・ながら・・・の・・・ 項目1 項目2 項目3 ・・・ Unigram Bigram wa de o nagara no 項目1 項目2 項目3 ・・・ Unigram は で を Bigram は:で で:を を:ながら Trigram は:で:を で:を:ながら を:ながら:の

作者识别的精度 非有名作者,短文,助词的n-gram 11名学生写的作文 Size Unigram Bigram Trigram 全文(1124字) 94.82 98.00 99.09 约1/2(562) 90.09 92.55 97.32 约1/3(375) 84.46 88.05 94.91 同志社大学 Doshisha University Jin Mingzhe

词性的n-gram ・・・<名詞>・・・<助詞>、<読点>・・・<副詞>・・・<形容>・・・<動詞>・・・<名詞>・・・<助動>・・・<助動>・・・・・・ Unigram <名詞>, <助詞>, <読点>, <助動>・・・・・・ Bigram <名詞><助詞>, <助詞><読点>, <読点> <助動> ・・・・・・ trigram <名詞><助詞><読点>,  <助詞> <読点> <助動> ・・・・・・ 同志社大学 Doshisha University Jin Mingzhe

文节的模式 名詞_助詞 一般_の サ変_に関する サ変_は 副詞_助詞 古く_から 動詞_動詞_助動詞_記号 自立_接尾__助動詞_句点 文 節 文節のパターン1 文節のパターン2 * 0 1D 0_1 1.480193 書き手 名詞,一般, の 助詞,連体化 名詞_助詞 一般_の * 1 2D 0_1 1.363637 同定 名詞,サ変接続, に関する 助詞,格助詞,連語 サ変_に関する * 2 3D 0_1 0.000000 研究 名詞,サ変接続 は 助詞,係助詞 サ変_は * 3 4D 0_1 0.000000 古く 副詞,助詞類接続 から 助詞,格助詞,一般 副詞_助詞 古く_から * 4 -1D 0_4 0.000000 行わ 動詞,自立 れ 動詞,接尾 た 助動詞 。 記号,句点 動詞_動詞_助動詞_記号 自立_接尾__助動詞_句点 同志社大学 Doshisha University Jin Mingzhe

实证所用的作品 著者 作品数 ID-作品名 芥川龍之介 30 Akuda01: 或阿呆の一生・・・ 太宰治 Dazai01: おさん, ・・・ 泉鏡花 Izumi01:いろ扱ひ, ・・・ 宮沢賢治 20 Miya01:かしはばやしの夜, ・・・ 森鴎外 Mori01:かのように, ・・・ 夏目漱石 Natsu01それから1, ・・・ 岡本綺堂 Okada01:ゆず湯, ・・・ 佐々木味津三 Sasa01:なぞの八卦見, ・・・ 島崎藤村 Sima01:ある女の生涯, ・・・ 与謝野晶子 Yosa01:-三面一体の生活へ,・・・ 同志社大学 Doshisha University Jin Mingzhe

結果(1) Random Forest (leave-one-out cross-validation), 99.23%   推   測   値 実測値  Ak Da Iz Mi Mo Na Ok Sa Si Yo Akuta 30 0 0 0 0 0 0 0 0 0 Dazai 0 30 0 0 0 0 0 0 0 0 Izumi 0 0 30 0 0 0 0 0 0 0 Miyazawa 0 0 0 20 0 0 0 0 0 0 Mori 0 0 0 0 20 0 0 0 0 0 Natsume 0 0 0 0 0 29 0 0 0 1 Okamoto 0 0 0 0 0 0 30 0 0 0 Sasaki 0 0 0 0 0 0 0 20 0 0 Simazaki 0 0 0 0 0 0 0 0 30 0 Yosano 0 0 0 1 0 0 0 0 0 19 同志社大学 Doshisha University Jin Mingzhe

例1.川端康成作品的嫌疑 川端康成1968年获得若贝尔文学奖 他的代表作品『山の音』,『みずうみ』,『古都』,『雪国』,『千羽鶴』,『眠れる美女』,『古都』等 川端从1960年到1961年之间服用大量的睡眠药,不用药无法睡觉 可这个期间同时写出了『眠れる美女』,『古都』, 『美しさと哀しみと』 (1) 眠れる美女, みずうみ,可能是三島由紀夫(弟子)代笔 (2) 晚年的作品有些是弟子北條誠和沢野久雄代筆 同志社大学 Doshisha University Jin Mingzhe

同志社大学 Doshisha University 発表年 川端康成 北条誠 沢野久雄 三島由紀夫 ~1950年 伊豆の踊子など11作品,山の音49、千羽鶴49 盗賊48,仮面の告白49 1950年~1955年 舞姫50, 波千鳥53,みづうみ54 愛の渇き50、青の時代50、日曜日50、遠乗会50,密薬52,卵53 1956年~ 1960年 女であること56  雨の夜57、三分咲き57、緑なる人57  炎上57 潮騒54、詩を書く少年54, 沈める滝55、海と夕焼け55,金閣寺56、女方57 1960年~1965年 眠れる美女60、 古都61、 美しさと哀しみと61,片腕63 つゆの道60,朝母の呼ぶ声61,アカシヤの唄63,山のむらさきに64, 果樹園の道60、粉雪60,親しい心61、落葉61 百万円煎餅60,憂国61、月62、帽子の花62,可哀そうなババ63 1965年~1970年 秋の野に68,ほろびぬ美69、夕日野69 赤い夕焼け65,五百マイル66, バラが咲いた67,月の砂漠68  孤客66、晩年の石66,雨しきり69、遠い音69,古調69 月澹荘奇譚65,荒野より66, 時計67,蘭陵王69 1970年~ 髪は長く70,三島由紀夫72、友人の妻72  花はなんの花73 同志社大学 Doshisha University Jin Mingzhe

基于文节的模式聚类分析图 同志社大学 Doshisha University Jin Mingzhe

高频率60文节的对应分析 川端康成 三島由紀夫 同志社大学 Doshisha University Jin Mingzhe

助词的聚类树图(效果较差) 同志社大学 Doshisha University Jin Mingzhe

例2.文本的写作时间能否推测? 芥川龙之介的助词「は(wa)」使用率 同志社大学 Doshisha University Jin Mingzhe 67

格助词「が(Ga)」的频率 格助詞「が」の使用率 作品の番号 同志社大学 Doshisha University Jin Mingzhe

芥川龙之介作品的系统图 大正                 明治       同志社大学 Doshisha University Jin Mingzhe 69

芥川龙之介的写作时期的预测 助词的词频为自变量,写作时间为因变量的 多元回归,机器学习法 同志社大学 Doshisha University Jin Mingzhe 70

例3. 匿名信是杀人犯写的吗? 2003年5月日本警示厅搜查一科找我 三年没有破案 有人死亡,车祸,可能是他杀 哥哥给他上了生命保险 例3. 匿名信是杀人犯写的吗? 2003年5月日本警示厅搜查一科找我 三年没有破案 有人死亡,车祸,可能是他杀 哥哥给他上了生命保险 警示厅收到两封信,一封为目击者的信,另一封为自供信兼遗书。 有哥哥写的少量文章 鉴定:两封信是否是哥哥写的 同志社大学 Doshisha University Jin Mingzhe

相关文档(为领取保险金的杀人案) 把文本M4分成2个文本。奇数文和偶数文(M4-1R,M4-2R) 关于另一案件的文档(M1) 1677 同志社大学 Doshisha University Jin Mingzhe

能否鉴定写信的犯人? 录像 同志社大学 Doshisha University Jin Mingzhe

例4.失踪后的手机邮件是谁写的? 一女性失踪 失踪后她的手机发出了一些电子邮件 邮件是谁写的? 她本人呢?,还是她的男朋友(嫌疑人)呢? 把两人的电子邮件进行分析 同志社大学 Doshisha University Jin Mingzhe

失踪人和嫌疑人的电子邮件 PC上的电子邮件 手机邮件 失踪人 嫌疑人 失踪人 嫌疑人 同志社大学 Doshisha University Jin Mingzhe

非计量多次元尺度法の散布图 同志社大学 Doshisha University Jin Mingzhe

手机邮件的识别 20人,共5724件邮件 性别 长度 同志社大学 Doshisha University Jin Mingzhe

テキスト情報による金融市場の逐次外挿予測 Out-of-Sample Test of Text Mining in Financial Markets http://www.kishii.ss.is.nagoya-u.ac.jp/~tori/society/sig-fin/pukiwiki/index.php?plugin=attach&refer=SIG-FIN-003-02&openfile=SIG-FIN-003-02.pdf 同志社大学 Doshisha University Jin Mingzhe

NLP和文本挖掘/计算的现状和将来 1990~2005,分词与句法研究和应用 2000~2010,文本挖掘与计算和应用 表层信息的统计分析 2010~ ,文本的语义处理和应用 从文本表层信息走向深层的内容 具有可靠性高的QA系统,如IBM的DeepQA 知识库的开发与应用 期待计算语言研究的成果 同志社大学 Doshisha University Jin Mingzhe

谢谢大家!请批评指正! 结语 文本数据统计科学的前景无限宽广!(我) 适合于文本分析的方法有待于开发! 文本挖掘/计算统计分析不是万能 通过频率信息的量的差异和特征,要挖掘背后的深层原因 谢谢大家!请批评指正! 同志社大学 Doshisha University Jin Mingzhe