php如何抓取网页数据(哪些网页才能被保存到搜索引擎的服务器上呢?)

优采云 发布时间: 2022-02-20 23:08

  php如何抓取网页数据(哪些网页才能被保存到搜索引擎的服务器上呢?)

  什么是搜索引擎蜘蛛机器人?它是如何工作的?

  互联网发展初期,网站比较少,找资料比较容易。然而,随着互联网的爆炸式发展,普通网民要想找到自己需要的信息,就如同大海捞针。这时,满足公共信息检索需求的专业搜索网站应运而生。

  现代搜索引擎的鼻祖是 Archie,它是由蒙特利尔大学的学生 Alan Emtage 于 1990 年发明的。虽然当时万维网还没有出现,但网络中的文件传输仍然相当频繁,而且由于大量文件分散在各个分散的 FTP 主机中,查询起来很不方便,所以艾伦·埃姆塔奇想到了开发一个可以搜索的文件名。文件系统,所以有Archie。

  Archie 的工作原理与现在的搜索引擎非常接近。它依靠脚本程序自动搜索互联网上的文件,然后将相关信息编入索引,供用户以一定的表达方式查询。受到 Archie 在用户中的受欢迎程度的启发,内华达大学系统计算服务公司在 1993 年开发了另一个非常相似的搜索工具,但这次搜索工具除了索引文件之外还能够检索网页。

  当时,“机器人”这个词在程序员中非常流行。计算机“机器人”是一种软件程序,可以以人类无法做到的速度不间断地执行任务。因为专门用于检索信息的“机器人”程序像蜘蛛一样在网上爬行,所以搜索引擎的“机器人”程序被称为“蜘蛛”程序。

  先说一下搜索引擎的原理。

  搜索引擎将互联网上的网页内容存储在自己的服务器上。当用户搜索某个词时,搜索引擎会在自己的服务器上找到相关内容。也就是说,只搜索存储在搜索引擎服务器网页上的内容。哪些网页可以保存到搜索引擎的服务器上?只有搜索引擎的网络爬虫程序抓取到的网页才会保存在搜索引擎的服务器上。这个网络爬虫程序是搜索引擎的蜘蛛。

  蜘蛛机器人如何工作(搜索引擎如何工作)

  您应该知道在搜索引擎结果页面中排名靠前的重要性。但是,您的 网站 没有进入前三页,您不明白为什么。当蜘蛛侠想要索引您的页面时,您可能会混淆它。那么你是怎么知道的呢?别担心,继续阅读。

  你有一个很棒的 网站 有很多相关的内容,但你不能总是在搜索结果页面上排名靠前。您还知道,如果您的 网站 未在前几页中列出,则搜索者很有可能找不到该页面。您无法理解为什么页面对谷歌和其他主要搜索引擎不可见。而且你的竞争对手的网页不如你的,但排名比你的高。

  搜索引擎不是人类。搜索引擎公司几乎完全自动化了这个过程,以便处理万维网上收录的数百万个页面。软件程序不会像人眼那样看到您的网页。这并不是说您不需要让访问者高兴的 网站。这意味着您需要意识到搜索引擎会以不同的方式“看到”您的页面,并相应地进行计划。

  尽管网络很复杂,所有数据的处理速度很快,但搜索引擎实际上会执行简短的操作来将相关结果反馈给用户。这四个操作中的每一个都可能出错。这并不是说搜索引擎本身有问题,它可能只是遇到了一些它没有程序可以处理的东西。或者它被编程来处理它遇到的所有事情的方式都会产生次优的结果。

  了解搜索引擎的运作方式可以帮助您了解可能出现的问题。所有搜索引擎都完成四项主要任务:

  网站抓住。搜索引擎发送自动程序,有时称为“蜘蛛侠”,使用网页的超链接结构来抓取网页。根据我们的一些最佳估计,搜索引擎蜘蛛现在已经爬上了网络一侧的页面。

  文件检索。蜘蛛侠爬到某个网页后,应该把它的内容变成一个模板,当用户向搜索引擎提问时,它就会很容易回复。通过这种方式,网页被分组在一个庞大的、严格管理的数据库中,该数据库构成了搜索引擎的索引。这些索引包括数十亿份文档,并在不到一秒的时间内呈现给消费者。

  审讯程序。当用户使用搜索引擎时,引擎会检查其索引以查找匹配的文档。表面上看起来非常相似的问题可能会产生非常不同的结果。恰当的例子:在 Google 上搜索“field and river magazine”(不带引号)会产生超过 400 万条结果。加上引号,谷歌只返回了 19,600 个结果。这只是搜索者缩小搜索量并获得相关结果的一种方式。

  排名结果。谷歌并没有向你展示全部 19,600 个结果,即便如此,它也需要某种方式来决定将哪些结果排在第一位。因此搜索引擎运行一种算法来确定哪些与搜索最相关。这些列在最前面,其余的按相关性顺序向下列出。

  现在你应该对整个过程有了一些了解。只需花一些时间近距离观察每一个。这将帮助您了解事情进展如何,以及某些任务如何以及为什么会变得糟糕。这个 文章 将专注于网络抓取。

  不爬行,而是阻挡

  当你开始 网站navigation 时,它主要是你的真实世界的访问者,当然它应该是。但是一些导航结构可能会阻止搜索引擎蜘蛛,使它们一开始就不太容易发现您的页面。作为额外的奖励,您对网页所做的许多事情都将使蜘蛛侠更容易找到 网站 内容,从而使访问者更容易在页面中找到自己的方式。

  顺便说一句,您可能不希望蜘蛛侠能够索引您页面上的所有内容,但您应该记住这一点。如果您有一个需要付费才能访问的页面,您可能不希望 Google 抓取您的内容以将其显示给输入 关键词 的任何人。有很多方法可以人为地阻止蜘蛛侠捕捉到这些内容。

  动态 URL 是对搜索引擎蜘蛛的最大威慑之一。特别是具有两个或更多动态参数的页面将配备蜘蛛侠。当您看到动态 URL 时,您会认出它,该 URL 通常收录许多“垃圾”符号,例如问号、等号、和号 (&) 和百分号。这些页面对人类用户来说很好,他们将通过设置一些参数来获得。例如,在搜索框中输入邮政编码将返回收录特定区域天气状况的页面以及收录动态 URL 的页面位置。

  蜘蛛侠还有很多其他不喜欢的方式。例如,在同一个 URL 上具有一百多个超链接的页面可能会让他们厌倦地查看它们。蜘蛛侠不会关注这些链接。如果你试图建立一个网站地图,有更好的方法来阻止他。

  隐藏在页面上的主页链接超过三个的页面也不会被抓取。因为这会使许多人对网页上的如此多链接而没有导航感到头晕目眩。

  需要“身份验证”等的页面也不会被抓取。蜘蛛侠不是扫描仪,它们的能力也不相同。他们可能无法保持相同形式的验证。

  另一个块是分成框架的网页。许多网页设计师喜欢框架;它使访问者即使在浏览内容时也保持在同一页面上,但蜘蛛侠发现框架网页令人困惑。对他们来说,内容就是内容,他们不知道哪个网页应该出现在搜索结果页面上。坦率地说,许多用户也不喜欢框架,只是为了提供更干净的页面。

  上面阻止蜘蛛侠工作的大部分内容都是你不小心放在页面上的。让我们谈谈 网站 管理员故意用来阻止蜘蛛侠的一些事情。前面我提到过,其中一个主要原因是内容需要用户付费才能看到,还有一些其他的,比如内容可能是免费的,但不是每个人都能轻松获得。

  网站填写一些表格并提交进入,蜘蛛侠很有可能会被关闭。他们无法获得按钮或类型。同样,需要使用下拉菜单的网页可能无法搜索,只能通过搜索框访问的文档也可能无法搜索。

  故意阻止的文件通常不会被抓取。

  现在你知道是什么让蜘蛛侠窒息了,你可以如何鼓励他们去任何他们想去的地方。关键是为您希望蜘蛛侠访问的每个页面提供直接的 HTML 链接。另外,给他们一个浅水池玩。蜘蛛侠通常从主页开始,如果您的网页的某些部分无法从那里访问,蜘蛛侠很可能看不到它。此时使用 网站maps 是非常宝贵的。

  蜘蛛侠在超链接中看到了什么?

  我假设您对 HTML 相当熟悉。如果你看过 HTML 页面的代码,你可能已经注意到出现超链接的文本,seo Chat

  当 网站 浏览器读到这个时,它会知道文本“seo chat”应该是一个超链接页面。顺便说一下,在这个例子中,“seo chat”是链接的前导词。当蜘蛛阅读这段文字时,它会认为,“OK,该页面”与当前页面上的文字相关,与“SEO CHAT”极为相关。

  现在对于更复杂的:

  标题=“搜索引擎优化信息的好网站”

  Rel=”nofollow”>seo 聊天

  现在怎么样了?引导词没有改变,所以当网络浏览器在这里显示它时,链接看起来还是一样的。但是蜘蛛侠会想,“好吧,这个页面不仅与‘seochat’相关,而且与‘伟大的 seo 信息网站’相关。而且,我现在所在的这个页面与这个超链接相关。它显示该链接不是对该页面的投票,因此不会增加 PR 值。”

  最后一点,关于这个链接不是对该页面的投票,反映在标签“rel=nofollow”中。这个标签演变成一个链接,指向向博客“欢迎使用我的药物网站”提交相关评论的人。这种评论方式是为了提升自己页面的搜索排名的一种尝试。这称为“评论垃圾邮件”。大多数搜索引擎不喜欢垃圾评论,因为它会歪曲他们的结果,使它们的相关性降低。正如您可能猜到的那样,“nofollow”属性对于搜索引擎来说是特殊的,它不会被注意到。雅虎、MSN、谷歌都可以识别,但 askjeeves 不支持 nofollow,它的蜘蛛侠只是忽略了标签。

  在某些情况下,链接可能指向图像。超链接将包括照片的名称和可能的“alt”属性的一些替代文本,这对于盲人的语音浏览器很有帮助。它还有助于蜘蛛侠,因为它提供了另一个页面描述的证据。

  网页上可能还有其他形式的超链接,但一般来说,这些形式不会通过排名或蜘蛛侠值。总而言之,链接越接近文字的形式,蜘蛛侠就越容易抓取链接,反之亦然。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线