英文文本分析入门.

Slides:



Advertisements
Similar presentations
1. 卸下标签 身心松静 关注健康! 2. 坦诚开放 互信互赖 社会支持! 3. 排除干扰 倾心体悟 创造协作! 4. 连接自己 享受成长 和谐社会! 恳请与提醒.
Advertisements

1 門市服務丙級技術士 技能檢定介紹 門市服務丙級技術士報告注意事項 證照名稱:門市服務丙級技術士 發照單位:行政院勞工委員會 有效期限:終生有效 考照時間:每年一次,皆為第一梯次 1. 簡章與報名書表發售時間:每年 1 月 2. 報名時間:每年 1 月。 3. 學科考試時間:每年 3.
新北市志願選填試探後輔導作業 特色作法分享 新北市政府教育局特殊教育科 歐人豪 科長.  新北市適性輔導工作 - 推動組織架構 新北市政府教育局 國民教育輔導團 學生輔導諮商中心 友善校園學生事務與 輔導工作輔導團 友善校園學生事務與 輔導工作輔導團 新北市各國中 ( 含私立學校 ) 生涯發展教育工作執行小組.
急性腹痛 急性疼痛. 急性疼痛 — 孙树杰、沈洪、 刘保池 (1)(1)(1)(1) 概 述 (2)(2)(2)(2) 重症急性腹痛的临床特点 (3)(3)(3)(3) 急性腹痛的分类及诊治 主要教学内容.
生源地助学贷款系统还款功能优化说明 评审三局 2015年5月.
学习贯彻党的十八大精神.
市直单位财务明细信息表 填报说明 珠海市财政局 2013年12月 1.
第二框 信用工具和外汇.
二、信用工具和外汇.
为您扬帆,助您远航! 徽商银行特色新产品介绍. 为您扬帆,助您远航! 徽商银行特色新产品介绍.
第5章 排版的高级应用.
如果你知道甚麼時候吃和怎樣吃,你將獲益良多
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
2013年生源地贷款工作回顾及下一步工作思路 2013年11月.
银联代付产品.
Word高级应用——制作毕业论文 Word高级应用——制作毕业论文 6..
「紓壓享瘦」減重班課程 國軍北投醫院.
公务卡使用说明.
術科測試解析 第二站 櫃檯作業 (瑋博POS系統).
中国特色社会主义政党制度 主讲:西南大学 李强 2011年12月28日.
如果你知道什么时候吃和怎样,你将获益良多
正修科技大學典範人物專訪 寫作徵文比賽實施要點
财务知识培训 杨 秀 玲 2014年10月.
银联代收产品.
宸鸿科技集团.
通用技术教学与实践 常德市鼎城区第八中学 刘启红.
科目名稱: 觀光與文化 教師:李奇嶽.
欢迎南京市政治学科的教研同仁 光临指导.
3.囚绿记.
创业计划书的编写 白城师范学院创业教育 与文化研究中心 陆东辉.
法律修养专题 对应教材的第七、八章内容 及第五、六章法律部分内容.
生物学 新课标.
第一章会计技能的内容 1.1会计技能的重要性.
102學年度期初校務會議—學務處 報告人:許慶雄主任.
《职业病危害项目申报办法》解读 2012年7月.
东南大学 数字迎新的探索 东南大学 网络与信息中心 张月琳.
新时期下的财政票据管理 省非税局票据管理处 陈奕晶.
请带上耳机.
苏州市教育局组织讲座 后现代心理学 对教育工作的贡献
經濟部文書作業實務 報告人:何國金.
第三方支付风生水起,多路大佬竞角逐 第三方支付为互联网企业带来的巨大利益,各路势力目前 正争相获取第三方支付牌照,但第三方支付平台跑路、盗 刷等问题频出,使得行业未来发展受到挑战,那么未来第 三方支付将走向如何? 对此,九次方大数据结合网络舆情,对第三方支付行业进 行了梳理,您会发现: 1、央行发放支付牌照政策收紧,新增获得第三方支付牌照的企业数量骤降.
小组社会工作 —过程 1.
玉溪工业财贸学校副校长 示范校建设办公室主任 柏家渭 2014年5月13日
本位課程分享 報告:葉尚旻
2010年高考语文《考试大纲》对本考点的要求是:“正确使用标点符号。”能力层级为D(表达应用)。
99學年度第二學期人文典籍閱讀 小組讀書報告 指導老師:陳鎮亞 報告書名:印象洗腦術 組長:呂承澤( )
教育部補助 「大專校院社團帶動中小學社團發展」
本课件是由精确校对的word书稿制作的“逐字编辑”课件,如需要修改课件,请双击对应内容,进入可编辑状态。
崇右技術學院 電子公文線上簽核系統教育訓練
第一单元 生活与消费 第一课 神奇的货币 第二课时 信用工具和外汇 建行龙卡 工行 牡丹卡 农行 金穗卡.
如果你知道甚麼時候吃和怎樣吃,你將獲益良多
同学们好 欢迎选修统计原理.
企業講座 組長: 張仁杰 組員: 指導老師:洪伯毅 楊巧歆 楊明芬 陳璿安
社会调查辅导 适用于电大开放教育行政管理本科专业.
注重物理基本思想和方法教学 讲究实效 ——2012年高考物理复习备考建议
經國管理學院 電子公文線上簽核系統教育訓練
浙江省公务卡结算制度.
点击此处添加标题 点击此处添加标题 点击此处添加标题 点击此处添加标题 点击此处添加标题 TEXT HERE
大綱 *專題演講介紹 *大陸醫療的改革與發展 *海報發表文章分享 2012海峽兩岸醫院院長論壇行後報告 ‧台北
正则表达式—简单运用.
國有公用財產管理簡介 總 務 處 保管組 104年04月07日.
第七章 网络营销.
5.汽车配件经营 我国汽车配件市场的概述 汽车配件零售网点的经营管理 汽车配件交易市场的经营管理 汽车配件的连锁经营
門市服務丙級技術士技能術科檢定程序 第一崗位 (30%) 筆試類型(22.5%) 1.服務品質~30題 2.危機處理~30題 50分鐘
選一選 請將正確的解答點選出來.
如何制订幼儿园园本培训工作计划 大连亿达世纪城幼儿园 姜承华 2011年3月10日.
大学计算机基础——周口师范学院 第3章 Word字处理软件 3.8页眉与页脚.
假代购诈骗钱 P2P网络非法集资洗钱 虚开增值税发票洗钱 非法经营POS机套现 被第三方支付平台骗取资金 买卖信用卡洗钱
高级大数据人才培养丛书之一,大数据挖掘技术与应用
走讀台灣旅遊計畫範本.
Presentation transcript:

英文文本分析入门

学习目标 完成本次作业后,学生将: 熟悉自然语言处理(NLP)和文本分析的基本概念 学会英文文本分析文件预处理的一些常用技术

自然语言处理 自然语言处理(NLP)是一个很广泛的领域,其中包括了对人类语言的自动化解释。 在自然语言处理中,文本分析是指从数字文本中提取意思的过程。这种原始文本数据可以以文档、网页、新闻文章、电子邮件、社交媒体帖子等形式存在。

为什么要使用文本分析? 文本分析功能强大,因为它能够帮助我们从大量的文本数据中提取有用的信息。 文本分析最大限度地减少了处理数字文本所需的人力,并能从这些数字文本中收集到量化的知识。

为什么要使用文本分析?(续) 例如,如果您是一家连锁酒店负责客人满意度部门的主管,网上的客人反馈就会很重要。您很可能无法高效地读完酒店客人在各种网站上留下的数千条评论。

为什么要使用文本分析?(续) 通过使用一种文本分析的工具--情绪分析——您就可以识别一系列“正面”和“负面”的单词或短语,然后自动地统计这些单词或短语在评论中出现的次数。

为什么要使用文本分析?(续) 您可以通过对评论中的词频数据进行一段时间的监控,来看看顾客的正面或负面的情绪是否发生了统计上的变化。

准备文本数据 在使用情绪分析之类更先进的工具之前,了解一些在分析前准备数据所需的必要步骤是很有用的。 即使您正在使用供应商所提供的现成产品来做文本分析,在准备数据的过程中,也可能需要对数据做出一些假设,那么了解一下数据分析的底层技术也是很有必要的。

将文本分割成单词 清理和准备原始文本数据的确切步骤取决于(1)文本数据的来源,(2)分析的目的,以及(3)您的编程工具。 处理大量用于分析的原始文本始终包括将文本切成小块的过程。 文本是字符或符号以及空格的线性排列。 “令牌”(token,或译为“标记”或“字串”)是指能够组成一个意思单位的一系列字符。通常在英文中,它们是以单词的形式出现的。

令牌化 (Tokenization) 令牌列表成为下一步文本处理的处理对象。 单词的令牌化是指将文本转换为一系列单词令牌。在这个阶段,某些字符,例如一些标点符号,通常也会被删除。 上面句子的英文原文是:Tokenization transforms the text into a series of word tokens. At this stage, certain characters—such as some punctuation—are typically also eliminated. 它将会被用作下面的令牌化处理的例子。 例如,令牌化处理以后,上面的英语句子会变成以下的令牌列表: ‘tokenization’, ‘transforms’, ‘the’, ‘text’, ‘into’, ‘a’, ‘series’, ‘of’, ‘word’, ‘tokens’, ‘at’, ‘this’, ‘stage’, ‘certain’, ‘characters’, ‘such’, ‘as’, ‘some’, ‘punctuation’, ‘are’, ‘typically’, ‘also’, ‘eliminated’ 令牌列表成为下一步文本处理的处理对象。

词性标注 (POS Tagging) 将令牌标注为名词、动词、形容词等,对于保证接下来的语言处理的准确性是非常重要的。 词性标注是指:先取得一串单词,然后利用每个单词自身的定义以及它与相邻单词的关系将词性附着到每个单词上。

未知词 当某些单词不在系统的词典中时,它们就被认为是“未知词”,英文缩写为OOV。 根据您的系统所使用的词典和规则而定,专有名词、专业术语、复合词、缩写和俚语可能会是未知词。 请谨记一点,尽管保留这些非标准的单词对您的最终分析可能很重要,但您的系统却有可能被设计成:在“清理”文本时,删除掉未知词。

词形还原 (Lemmatization) 词形还原是将单词还原成基本形式或字典形式(即词条)的过程。 动词“to eat”在文本中可能出现的形式有“eat”、“ate”、“eats”或“eating”。基本形式“eat”是这个词的词条。 一般来说,词形还原是指去掉词尾后缀。然而,“将单词还原到词条”也可能指“根据上下文来用同义词替换”。

词形还原(续) 例子:请看下面在词形还原前后令牌序列的变化。 词形还原前: ‘a’, ‘background’, ‘in’, ‘statistics’, ‘is’, ‘expected’, 变为词条后: ‘a’, ‘background’, ‘in’, ‘statistic’, ‘be’, ‘expect’,

x 去除停用词 下一步通常是过滤掉英语中最常用的单词。这些词可以用来构建有意思的句子,但它们本身却没有太多意思。 这些词被称为停用词。 并没有通用的停用词表。 一个有代表性的停用词表大约包含125到150个词。

单词计数 对过滤后的列表进行词频计数,我们就可以得到每个令牌在数字文本中出现的次数。 词频,是衡量某个单词在被分析的词料库里的相对权重的一种方法。它通常是进行进一步分析(如情绪分析、可读性分析和主题建模)的先导。

相邻词 搭配是指经常出现在彼此附近的一些词。例如二元分词(又称双字节字段),它是在一个令牌序列中的两个相邻令牌。 回到酒店评论的例子上来,客人经常会表示他们是否会“stay again”(再次光临)或“not stay (again)”(不会再次光临)。计算这两个二元分词的出现次数可能有助于测出正面或负面情绪。 一元分词 = 1个令牌 二元分词 = 2个相邻令牌 三元分词 = 3个相邻令牌 n元分词 = n个相邻令牌

文本准备的注意事项 在文本准备工作中应该注意,要确保那些对您最终的分析至关重要的一些东西没有在无意中“被清理掉”。 例如,我们注意到,在酒店评论中,二元分词“stay again”(会再次光临)和“not stay (again)”(不会再次光临)可能会是重要的情绪指标。但是,“not”这个单词经常包含在停用词列表中。充分了解被分析的文本是取得更好的分析结果的关键。

作业链接 单击“平台链接”的按钮或使用以下链接直接访问文本处理工具: https://wrds-classroom.wharton.upenn.edu/natural-language-processing/ 这个互动工具使用了简·奥斯汀的《傲慢与偏见》的全文作为文本数据的来源。

作业 在这个工具中,频率分布被图像化地表现为词云。在词云中,每个单词的大小表示了它的出现频率。 您可以在这个互动式的工具中选择不同的选项,来查看在选择不同的文本处理方法时,词云会发生什么变化。 词云下面的数据表包含了完整的单词列表。

总结 文本分析使用一系列自动化过程从数字文本中提 取意思。 令牌化、词性标注、词形还原和去除停用词都是 对原始数字文本数据进行预处理的技术方法。 计算特定词语在文本中出现的频率能提供关于文 本的有用信息,是进一步分析的先导。