用文本挖掘和机器学习洞悉数据

作者: afenxi来源: afenxi时间:2017-05-01 10:06:120

文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力，比如Word文档，邮件和社交媒体流中发布的帖子，如Facebook，Twitter，和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言，文本挖掘已经成为一个重要的研究领域。在某种意义上，它被定义为在无处不在的文本中发现知识的方式，而这些文本可以在网络上轻易获取。

文本挖掘是一个包含几个步骤的过程，如上图所示。

第一步：适合应用的文档一般是确定的大量文本数据。文档聚类方法经常用语解决“大量”这个问题。这些方法是非监督的学习方法，最受欢迎的文档聚类方法是K-means聚类和凝聚层次聚类。

第二步：文本是被清洗了的——它从网页上的广告中拆离出来；标准化文本从二进制格式转换而来；表、数字等式都是经过处理的；还有其它的等等。然后，将文本中的词语与对应的词类标记的步骤开始进行。有两种方法标出词语：一个是基于规则方法，依赖于语法规则；一个是基于统计的方法，它依赖于不同的词序概率，并且需要一个用来机器学习的手工且有针对性的语料库。之后，一个词语在依据给定的话句子中所含有的拥有的许多不同的含义确定了。最后，语义结构明确下来。有两种方式来确定语义结构：完全语法分析，它会对一个句子会产生一个分析树，是部分语法分析的组合，部分语法分析会产生一个句子的语法结构，比如名词短语和动词组。产生一个完整分析树经常失败，因为语法不准确、异常词汇、糟糕的符号化、不正确的句子拆分、词性的标准错误和其它等等原因。因此，分块和部分分析更为常用。

第三步：这些词语（特征）决定了文本表示。最基本的文档表示方法有词袋法和向量空间。这些方法的目标在于确定哪些特征可以最好的描述一个文档。

第四步：特征的维度被降低。为此，无关的属性将被移除。

第五步：文本挖掘过程与传统的数据挖掘过程结合。经典的数据挖掘技术如聚类，分类，决策树，回归分析，神经网络和近邻取样将被用在之前的阶段所得到的结构化数据库上。

在最后的步骤中，如果结果不令人满意，它们将会用做文本挖掘一个或多个早期阶段所投入的一部分。

机器学习是计算机科学的一个分支，它来源于模式识别研究好人工智能中计算学习理论。它探索了算法的研究和建立，认为可以从数据中进行学习并对数据进行预测。这样的算法运行是通过样例的输入来建立模型，从它成为以数据作为驱动的预测或者决策，而不是遵循严格的静态程序指令。

机器学习与计算统计学非常相关，并且经常有所重叠——也是一个专门研究预测制定的学科。它和数学最优化法有很强的关系，提供了方法、理论和应用领域。它是使用一系列的计算任务，其中显示算法设计和编程都不可用。示例应用程序包含垃圾邮件过滤,光学字符识别(OCR),搜索引擎和计算机视觉。文本挖掘利用机器学习在决定功能,降低维数和删除不相关的属性上的特别优势。例如，文本挖掘将机器学习用于情绪分析，它广泛的应用于评论到社交媒体，涵盖了从营销到客户服务各种不同的而应用程序。它的目的是确定一个说话者或写作者对一些话题的态度，或者是一个文档整体语境的极性判定。这个态度可能是他或者她的判断或评价,情感状态或情感交流。文本挖掘中机器学习算法包括决策树学习，关联规则学习,人工神经学习,归纳逻辑编程,支持向量机,贝叶斯网络、遗传算法和稀疏字典的学习。

本文由数艺智训翻译，原文地址>>>

原创文章，作者：大西，如若转载，请注明出处：《用文本挖掘和机器学习洞悉数据》https://www.afenxi.com/post/6106

看过还想看

可能还想看

热点推荐