行业资讯>BI>

人人网文本分析漫谈-分类器中的关键词提取

作者: 大数据观察来源: 大数据观察时间:2017-07-08 15:22:570

面对人人网海量的UGC，数据挖掘工作势在必行，能把用户最想要的信息推荐出来，是我们正在研究的课题之一。在推荐系统中，分类器是个非常重要的部分。

分类器的研究重点落在两个方面，一方面是文本关键词的提取，一方面是对已有关键词或标签的文本进行训练分类。下图为关键词提取在分类器中的位置

下文简单介绍关键词提取常用的方法。

基于词频（TFIDF）统计的方法

思想：常用TFIDF计算文本特征权重，权重高的为关键词，该方法简单，效果也不错。

在实际操作中常会对文本进行聚类处理，计算文本特征权重后，先对文本向量（在聚类操作中，常用文本的句子做为向量单位）利用余弦定理计算文本相似度或距离，然后通过聚类算法，将相似文本聚类。最后在各文本类中选择关键词，合并得出最终结果。这样先通过文本相似度聚类，提高了关键词准确率。下图为k-means聚类算法过程

TFIDF：TF（term frequency）为特征在文本中出现频率，IDF（inverse document frequency）文档中出现该词的频率log(D/Dｗ)，该公式的思想是：特征权重除了和出现频率成正比外，还和文档频率成反比（如果只有文本中包含该特征，则认为该特征更能体现文本的专有特性）。

特征权重=TF*IDF。

特征权重计算方法还有：用于VSM的信息熵算法，基于增益的对TFIDF改进算法算法等。

该方法常结合聚类算法一同使用。

基于词语共现图提取方法

思想：文本中两个特征经常共现在文本的同一段落，则认为两个特征在意义上是相互关联的，共现概率越高，关联越紧密。

由此计算每个特征节点重要性，即与其他特征同现指数连乘，选取最重要的节点作为关键词。

其中最简单的特征同现指数可以用两个特征同现频率表示。

该方法在小规模文本集时并不能很好的反映特征间的关系。

因此文本集的大小会影响算法的稳定性和准确性。

基于词语网络的方法

思想：它是词语共现图的发展，因此与同现图类似，每个特征为网络中的节点，网络的边表示特征间的关系，不同的是该算法引入了图论的模型及算法。

首先要提到最小世界网络（Small-World-Network）这个概念：具有高聚类系数，且平均路径长度短的网络。

其中图的聚类系数为所有节点的(实际边数/最多可能边数)和平均值；

图的平均路径长度即：网络图中,任意两个节点间最短路径边数的平均值。

这种网络和我们以人为节点，人与人之间关系为边，构成的现实世界具有同样的特性：聚类系数高，平均路径短。同理，该模型适用于词语网络。下图为SWN的模型图

在该网络中，特征即为节点，边表示除了前面说的特征同现频率外，还有jaccard系数等计算方法。网络图构建完成后，提取关键词工作即转换为对关键节点的选择。而由于我们认为词语网络是适用于SWN模型的，那关键节点即为影响SWN性质的节点。在现实世界网络中，就相当于去寻找影响社会发展的人，一个公司中的关键人物一样。

通常寻找关键节点的方法有两种，一是直接衡量节点的属性值来判断节点的重要程度，如节点的度(节点到其他节点距离和的倒数)、节点中介性指标（Betweenness Centrality：其他节点间最短路径经过该节点的概率）等。另一种是通过衡量删除节点后，对SWN性质的破坏程度，即衡量删除节点后聚类系数和平均路径长度的变化，决定该节点的重要度。

本期就先介绍到这里，下期将对词语网络中的一些关键点进行详细介绍，敬请关注文本分析系列！

注：本文纯属个人理解，如有失误，请不吝赐教！

本文来自：http://ugc.renren.com/2010/02/01/keywords-extraction-overview/

看过还想看

可能还想看

热点推荐