沧州关键词采集文章(关键词提取算法的一个重要特点是什么？提取方法 )

优采云发布时间: 2021-12-19 23:14

　　沧州关键词采集文章(关键词提取算法的一个重要特点是什么？提取方法

)

　　关键词抽取就是从文本中抽取一些与这个文章的意思最相关的词。它在文档检索、自动抽象和文本聚类/分类方*敏*感*词*有重要应用。

　　关键词抽取算法一般分为有监督和无监督两种

　　有监督的关键词抽取方法主要是通过分类进行，通过构建相对丰富完整的词汇表，然后判断每个文档与词汇表中每个词的匹配程度，并通过类似的标注方式来达到效果关键词提取。优点是准确率高，缺点是需要大量标注数据，人工成本太高，需要及时维护词汇。

　　相比之下，无监督方法对数据的要求较低，既不需要人工生成和维护词汇，也不需要人工标注语料来辅助训练。最常用的关键词提取算法基于无监督算法。如TF-IDF算法、TextRank算法和主题模型算法（包括LSA、LSI、LDA等）

　　1.TF-IDF算法

　　TF-IDF是一种数值统计方法，用于反映一个词在期望中对某个文档的重要性。其主要思想是：如果一个词在文档中出现频率高，即TF高；并且在其他文档中很少出现，即如果IDF高，则认为这个词具有很好的分类能力。

　　TF为词频，即词t在文档d中出现的频率：tf(word) =（该词在文档中出现的次数）/（文档中的总词数）

　　IDF常用的计算公式如下：|D| 是文档集中的文档总数，

　　是文档中出现单词 i 的文档数。分母加1使用拉普拉斯平滑，避免出现一些新词没有出现在语料库中而分母为零的情况。

　　2.TextRank 算法

　　该算法的一个重要特点是可以脱离语料库的背景，只分析单个文档，提取文档的关键词。基本思想来自 Google 的 PageRank 算法。这个算法是谷歌创始人拉里佩奇和谢尔盖布林在1997年构建早期搜索系统原型时提出的一种链接分析算法，有两个基本思想：

　　1）链接数。一个网页被其他网页链接的链接越多，这个网页就越重要

　　2）链接质量。如果一个网页被一个更高权重的网页链接，也可以表明该网页更重要

　　TextRank用于关键词提取的算法如下：

　　（1）给定的文本T被分割成完整的句子，即：

　　（2）对每个句子进行分词和词性标注，过滤掉停用词，只保留指定的词性词，如名词、动词、形容词等。

　　ti,j 为预约后的候选关键词。

　　(3）构造候选关键词图G = (V,E)，其中V为节点集，由(2）生成的候选关键词组成，然后采用共现关系（Co-Occurrence）在任意两点之间构造一条边。两个节点之间只有当它们对应的词在长度为K的窗口中共同出现时才存在一条边。K表示窗口大小，即最多K 字可以同时出现。

　　（4）根据TextRank的公式，迭代传播每个节点的权重，直到收敛。

　　（5）将节点权重倒序排序，得到最重要的T字作为候选关键词。

　　(6）从(5）中取出最重要的T个词，并在原文中做标记。如果形成相邻的词组，则组合成多个词关键词。

　　下面主要通过jieba包中的analyze函数来实现这两种关键词提取算法：

　　jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence：待提取的文本语料

topK：返回 TF/IDF 权重最大的关键词个数，默认值为 20

withWeight：是否需要返回关键词权重值，默认值为 False

allowPOS：仅包括指定词性的词，默认值为空，即不筛选

0

2021-12-19

沧州关键词采集文章

0 个评论

要回复文章请先登录或注册