英文文本分析入门
学习目标 完成本次作业后,学生将: 熟悉自然语言处理(NLP)和文本分析的基本概念 学会英文文本分析文件预处理的一些常用技术
自然语言处理 自然语言处理(NLP)是一个很广泛的领域,其中包括了对人类语言的自动化解释。 在自然语言处理中,文本分析是指从数字文本中提取意思的过程。这种原始文本数据可以以文档、网页、新闻文章、电子邮件、社交媒体帖子等形式存在。
为什么要使用文本分析? 文本分析功能强大,因为它能够帮助我们从大量的文本数据中提取有用的信息。 文本分析最大限度地减少了处理数字文本所需的人力,并能从这些数字文本中收集到量化的知识。
为什么要使用文本分析?(续) 例如,如果您是一家连锁酒店负责客人满意度部门的主管,网上的客人反馈就会很重要。您很可能无法高效地读完酒店客人在各种网站上留下的数千条评论。
为什么要使用文本分析?(续) 通过使用一种文本分析的工具--情绪分析——您就可以识别一系列“正面”和“负面”的单词或短语,然后自动地统计这些单词或短语在评论中出现的次数。
为什么要使用文本分析?(续) 您可以通过对评论中的词频数据进行一段时间的监控,来看看顾客的正面或负面的情绪是否发生了统计上的变化。
准备文本数据 在使用情绪分析之类更先进的工具之前,了解一些在分析前准备数据所需的必要步骤是很有用的。 即使您正在使用供应商所提供的现成产品来做文本分析,在准备数据的过程中,也可能需要对数据做出一些假设,那么了解一下数据分析的底层技术也是很有必要的。
将文本分割成单词 清理和准备原始文本数据的确切步骤取决于(1)文本数据的来源,(2)分析的目的,以及(3)您的编程工具。 处理大量用于分析的原始文本始终包括将文本切成小块的过程。 文本是字符或符号以及空格的线性排列。 “令牌”(token,或译为“标记”或“字串”)是指能够组成一个意思单位的一系列字符。通常在英文中,它们是以单词的形式出现的。
令牌化 (Tokenization) 令牌列表成为下一步文本处理的处理对象。 单词的令牌化是指将文本转换为一系列单词令牌。在这个阶段,某些字符,例如一些标点符号,通常也会被删除。 上面句子的英文原文是:Tokenization transforms the text into a series of word tokens. At this stage, certain characters—such as some punctuation—are typically also eliminated. 它将会被用作下面的令牌化处理的例子。 例如,令牌化处理以后,上面的英语句子会变成以下的令牌列表: ‘tokenization’, ‘transforms’, ‘the’, ‘text’, ‘into’, ‘a’, ‘series’, ‘of’, ‘word’, ‘tokens’, ‘at’, ‘this’, ‘stage’, ‘certain’, ‘characters’, ‘such’, ‘as’, ‘some’, ‘punctuation’, ‘are’, ‘typically’, ‘also’, ‘eliminated’ 令牌列表成为下一步文本处理的处理对象。
词性标注 (POS Tagging) 将令牌标注为名词、动词、形容词等,对于保证接下来的语言处理的准确性是非常重要的。 词性标注是指:先取得一串单词,然后利用每个单词自身的定义以及它与相邻单词的关系将词性附着到每个单词上。
未知词 当某些单词不在系统的词典中时,它们就被认为是“未知词”,英文缩写为OOV。 根据您的系统所使用的词典和规则而定,专有名词、专业术语、复合词、缩写和俚语可能会是未知词。 请谨记一点,尽管保留这些非标准的单词对您的最终分析可能很重要,但您的系统却有可能被设计成:在“清理”文本时,删除掉未知词。
词形还原 (Lemmatization) 词形还原是将单词还原成基本形式或字典形式(即词条)的过程。 动词“to eat”在文本中可能出现的形式有“eat”、“ate”、“eats”或“eating”。基本形式“eat”是这个词的词条。 一般来说,词形还原是指去掉词尾后缀。然而,“将单词还原到词条”也可能指“根据上下文来用同义词替换”。
词形还原(续) 例子:请看下面在词形还原前后令牌序列的变化。 词形还原前: ‘a’, ‘background’, ‘in’, ‘statistics’, ‘is’, ‘expected’, 变为词条后: ‘a’, ‘background’, ‘in’, ‘statistic’, ‘be’, ‘expect’,
x 去除停用词 下一步通常是过滤掉英语中最常用的单词。这些词可以用来构建有意思的句子,但它们本身却没有太多意思。 这些词被称为停用词。 并没有通用的停用词表。 一个有代表性的停用词表大约包含125到150个词。
单词计数 对过滤后的列表进行词频计数,我们就可以得到每个令牌在数字文本中出现的次数。 词频,是衡量某个单词在被分析的词料库里的相对权重的一种方法。它通常是进行进一步分析(如情绪分析、可读性分析和主题建模)的先导。
相邻词 搭配是指经常出现在彼此附近的一些词。例如二元分词(又称双字节字段),它是在一个令牌序列中的两个相邻令牌。 回到酒店评论的例子上来,客人经常会表示他们是否会“stay again”(再次光临)或“not stay (again)”(不会再次光临)。计算这两个二元分词的出现次数可能有助于测出正面或负面情绪。 一元分词 = 1个令牌 二元分词 = 2个相邻令牌 三元分词 = 3个相邻令牌 n元分词 = n个相邻令牌
文本准备的注意事项 在文本准备工作中应该注意,要确保那些对您最终的分析至关重要的一些东西没有在无意中“被清理掉”。 例如,我们注意到,在酒店评论中,二元分词“stay again”(会再次光临)和“not stay (again)”(不会再次光临)可能会是重要的情绪指标。但是,“not”这个单词经常包含在停用词列表中。充分了解被分析的文本是取得更好的分析结果的关键。
作业链接 单击“平台链接”的按钮或使用以下链接直接访问文本处理工具: https://wrds-classroom.wharton.upenn.edu/natural-language-processing/ 这个互动工具使用了简·奥斯汀的《傲慢与偏见》的全文作为文本数据的来源。
作业 在这个工具中,频率分布被图像化地表现为词云。在词云中,每个单词的大小表示了它的出现频率。 您可以在这个互动式的工具中选择不同的选项,来查看在选择不同的文本处理方法时,词云会发生什么变化。 词云下面的数据表包含了完整的单词列表。
总结 文本分析使用一系列自动化过程从数字文本中提 取意思。 令牌化、词性标注、词形还原和去除停用词都是 对原始数字文本数据进行预处理的技术方法。 计算特定词语在文本中出现的频率能提供关于文 本的有用信息,是进一步分析的先导。