用全文提取关键词和关键句的提取进行比较!

优采云 发布时间: 2021-08-05 18:25

  用全文提取关键词和关键句的提取进行比较!

  最近,pg 用于全文搜索。如果是全文搜索,速度会很慢。考虑到您可以搜索关键句子以提高速度。我测试了关键句子的 textrank 提取。目前的想法是比较全文提取关键词和关键句提取关键词来评估关键句的提取。 (提取关键词的方法现在是使用自己搭建的领域词汇(带权重)和文本tfidf分析的词得分。效果还不错。我还没想出更好的提关键词的方法@)

  测试了textrank,下面记录一下textrank的原理:

  一:PageRank 简介

  TextRank 算法是从 PageRank 算法迁移而来,PageRank 是一种网页重要性排名算法。 PageRank 最初用于计算网页的重要性。整个www可以看作是一个有向图,节点是网页。如果网页 A 有一个到网页 B 的链接,那么就存在从网页 A 到网页 B 的有向边。

  PageRank的计算公式:

  

  PRi 是网页 i 的中等重要性(PR 值),PRi 是网页 i 的中等重要性(PR 值),PRi 是网页 i 的中等重要性(PR 值)

  d为阻尼系数,一般设置为0.85d为阻尼系数,一般设置为0.85d为阻尼系数,一般设置为0.85

  Bi 是一组网页,其中收录指向网页 i 的链接。 Bi 是带有指向网页 i 的链接的网页集合。 Bi 是一个网页集合,其中收录指向网页 i 的链接

  Lj是网页j中的链接所指向的网页的集合(即网页j中所指向的链接网页的集合)。 ∣Out(Vj)∣ 是集合中元素的个数。 Lj是网页j中的链接所指向的网页的集合(即网页j中所指向的链接网页的集合)。 |输出(Vj)|是集合中元素的数量。 Lj是网页j中的链接所指向的网页的集合(即网页j中所指向的链接网页的集合)。 ∣Out(Vj)∣ 是集合中元素的个数。

  PageRank 需要使用上述公式进行多次迭代才能得到结果。最初可以将每个网页的重要性设置为1。 上面等号左边的计算结果是迭代后网页i的PR值,等号右边使用的PR值符号在迭代之前。

  一句话形象地描述了上面的公式:对于所有指向网页i的网页j,网页j的重要性除以网页j指出的链接数(因为网页j只能有一个链接指向网页i) 累积值的总和作为网页 i 的重要性。

  以上是PageRank算法的一个简单模型,但是简单模型不适合只链接自己的网页或者几个网页的链接形成一个循环,所以考虑更通用的PageRank算法模型——-随机浏览模型。

  随机浏览模型的假设是这样的:假设一个网页浏览器从一个随机页面开始浏览,浏览器不断点击当前网页的链接开始下一次浏览。但是,观众会逐渐感到无聊并开始随意浏览网页。随机浏览方式更符合用户的真实浏览行为,避免了上述情况的发生。这导致随机浏览模型。随机浏览模型中每个网页的PR值由以下公式计算:

  

  N 是网络中的网页总数 N 是网络中的网页总数 N 是网络中的网页总数

<p>1−d 是浏览器随机跳转到一个新网页的概率 1-d 是浏览器随机跳转到一个新网页的概率 1-d 是浏览器随机跳转到一个新网页的概率

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线