搜索引擎如何抓取网页(IDC:天之道,其犹张弓欤,损之,不足者补不足)

优采云 发布时间: 2022-04-20 18:01

  搜索引擎如何抓取网页(IDC:天之道,其犹张弓欤,损之,不足者补不足)

  中国IDC圈8月17日报道:天之道,还是弓吗?高者压之,低者举之,其余者损之,不足者补之。人之道不一样,失去的还不够多。谁能有盈为天下,唯有道。 (道法自然) 自然规律如箭。弓高时下压(高者压住),弓低时上提(低者抬起)。用多余的东西来弥补不足。人之道(法)并非如此。它是失去足够的服务过剩。什么样的人可以用自己的盈余服务世界?只有义人。所以,圣人靠自己的行动,不靠成功,也不想在众人面前立一个德行,以平天下。搜索遵循这样一个规则。

  据统计,近似重复网页的数量占网页总数的比例高达29%,而相同的网页约占所有网页的22%,即有相当大的比例Internet 页面中的内容 有许多类型的重复网页完全相同或大致相似。这些重复的网页有些是没有任何变化的副本,有些是在内容上略有修改的,比如同一个文章的不同版本,一个新的,一个旧的,有的只是网页格式不同(例如HTML ,后记)。内容重复可以归结为以下4种。

  · 类型1:如果两个文档的内容和布局没有差异,则重复可以称为完全重复的页面。

  ·类型2:如果两个文档的内容相同,但布局格式不同,则称为内容重复页。

  ·类型3:如果两个文档具有相同的重要内容和相同的布局格式,则称为布局重复页面。

  ·类型4:如果两个文档的某些重要内容相同,但布局格式不同,则称为部分重复页面。

  所谓网页近重复发现,就是通过技术手段,快速、全面地发现这些重复信息。如何快速、准确地发现这些内容相似的网页,成为提升搜索引擎服务质量的关键技术之一。

  查找相同或几乎重复的页面对搜索引擎有很多好处。

  1.首先,如果我们能找到这些重复的网页并将它们从数据库中删除,我们可以节省一些存储空间,然后我们可以利用这部分空间来存储更有效的网页内容,同时也提高了搜索引擎的搜索质量和用户体验。

  2.其次,如果我们可以通过分析过去采集的信息提前发现重复的网页,就可以在以后的网页采集过程中避免这些网页,从而提高网页的采集速度研究表明,重复网页不会随时间发生太大变化,因此从重复页面集合中选择一些页面进行索引是有效的。

  3. 另外,如果某个网页的镜像度高,往往是其内容受欢迎程度的间接体现,说明该网页比较重要。优先级,当搜索引擎系统响应用户的检索请求并对输出结果进行排序时,应赋予更高的权重。

  4. 从另一个角度来说,如果用户点击了死链接,可以将用户引导到内容相同的页面,可以有效增加用户的检索体验。因此,及时发现近似重复的网页有利于提高搜索引擎系统的服务质量。

  实际的搜索引擎通常在爬虫阶段执行近似重复检测。下图展示了搜索引擎中近似重复检测任务的流程。当爬虫爬取一个新的网页时,需要和已经建入索引的网页重复判断。如果判断为近似重复网页,则直接丢弃。如果发现是全新的内容,将被添加到网页索引中。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线