动态网页抓取(推荐:黑帽灰帽SEO的几点解释(组图))

优采云 发布时间: 2022-02-17 16:05

  动态网页抓取(推荐:黑帽灰帽SEO的几点解释(组图))

  推荐:黑帽灰帽SEO的一些解释

  连续写了几篇黑帽SEO文章,准备写一个系列。今天决定停在这里。有些评论让我有点后悔写这些帖子。最后,多说几句。1)在关于购买的帖子中网站,一位朋友留言说,

  网络爬取优先策略,也称为“页面选择”,通常会尽可能多地爬取最重要的网页,以确保在有限的资源范围内,尽可能多地照顾那些重要性高的网页。那么哪些页面最重要?如何量化重要性?

  重要性度量由链接流行度、链接重要性和平均链接深度等方面确定。

  链接流行度定义为IB(P),主要取决于反向链接的数量和质量。首先,看数字。直观地说,一个网页指向它的链接越多(反向链接越多),就意味着其他网页可以识别它。同时,该网页被网民访问的几率较高,推测其重要性较高;其次,检查质量。如果它被更重要的网站指向,那么它的重要性会更高。如果不考虑质量,就会出现局部最优而不是全局最优的问题。最典型的例子就是作弊网页。在一些网页中人为设置了大量的反制链接指向自己的网页,以增加网页的重要性。

  链接重要性定义为 IL(P),它是 URL 字符串的函数,仅检查字符串本身。链接的重要性主要通过一些模式来确定,例如将收录“.COM”或“HOME”的URL视为高度重要,而将斜杠(Slash)较少的URL视为具有较高的重要性。

  平均链接深度定义为 ID(P),由作者创建。ID(P)表示在一组*敏*感*词*站点中,如果每个*敏*感*词*站点都有一个链接(广度优先遍历规则)到达该网页,那么平均链接深度是该网页的另一个重要指标。因为离*敏*感*词*站越近,被访问的机会越多,离*敏*感*词*站越远,重要性越低。事实上,按照宽度优先的遍历规则,这种重要度高的网页是可以被优先抓取的。

  最后,定义网页重要性的指标是I(P),由以上两个量化值线性确定,即:

  I(P)=a*IB(P) β*IL(P)

  平均链接深度由广度优先遍历规则保证,因此不作为重要性评估的指标。在爬取能力有限的情况下,尽可能多地爬取最重要的网页是合理和科学的,而最终被用户查询的网页往往是那些重要性较高的网页。

  虽然这看起来已经足够完美,但实际上还是忽略了一个重要的元素——时间。时间导致万维网动态变化的一面。如何爬取那些新添加的页面?如何重新访问那些已修改的页面?如何找到那些被删除的页面?为了跟上网页的变化,必须有一个网页重访策略。通过该策略,可以识别三种网页变化,包括添加、修改和删除网页。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线