搜索引擎如何抓取网页(搜索引擎一种蜘蛛（Spider）的代理名称，搜索引擎爬行和抓取信息)

优采云发布时间: 2022-01-14 10:02

　　搜索引擎的基础是拥有大量网页的信息数据库，它是衡量搜索引擎整体质量的重要指标。如果一个搜索引擎的网页信息量小，可供用户选择的搜索结果就会比较少；大量的网页信息更能满足用户的搜索需求。

　　为了获取大量网页信息的数据库，搜索引擎必须采集网络资源。这项工作是通过搜索引擎的网络机器人（Crawler）对互联网上的各种网页进行爬取，并爬取信息。这是一个抓取和采集信息的程序，通常被搜索引擎称为蜘蛛或机器人。

　　每个搜索引擎蜘蛛或机器人都有不同的 IP 并有自己的代理名称。通常在网络日志中，您可以看到具有不同 IP 和代理名称的搜索引擎蜘蛛。以下代码中，前面的220.181.108.89等是搜索引擎蜘蛛的IP，其中Baiduspider、Sogou+web+spider、Googlebot、 Sosospider 和 bingbot 分别代表百度。蜘蛛、搜狗蜘蛛、谷歌机器人、搜搜蜘蛛、必应机器人。这些是各种搜索引擎蜘蛛的代理名称，是区分搜索引擎的重要标志。

　　220.181.108.89Mozilla/5.0+(兼容;+百度蜘蛛/2.0;++)

　　220.181.89.182搜狗+web+蜘蛛/4.0(+#07)

　　66.249.73.103Mozilla/5.0+(兼容;+Googlebot/2.1;++)

　　124.115.0.108Mozilla/5.0(兼容;+Sosospider/2.0;++)

　　65.55.52.97Mozilla/5.0+(兼容;+bingbot/2.0;++)

　　110.75.172.113Yahoo!+Slurp+China

　　搜索引擎蜘蛛虽然名字不同，但它们的爬取和爬取规则大致相同：

　　(1）搜索引擎在爬取网页时，会同时运行多个爬虫程序，根据搜索引擎地址库中的URL浏览和爬取网站的URL。地址库中收录用户提交的网址，网址，大型导航站的网址，人工收录的网址，蜘蛛爬取的新网址等。

　　（2）搜索引擎蜘蛛爬到网站，会先检查网站根目录下是否有Robots.txt文件，如果有Robots文件，根据协议，搜索引擎不会抓取被禁网页。如果网站一个搜索引擎被整体禁止抓取，那么搜索引擎将不再抓取网站的内容。如果你不小心设置了机器人文件不正确，可能导致网站内容不能为收录。

　　（3）进入允许爬取网站，搜索引擎蜘蛛一般采用深度优先、广度优先和最佳优先三种策略，依次爬过并爬到网站。

　　深度优先爬取策略是搜索引擎蜘蛛在一个网页上找到一个链接，沿着这个链接爬到下一个网页，然后再往下爬这个网页中的另一个链接，直到没有未爬取的链接，然后返回第一个. 一个网页，并爬下另一个链接。

　　如2.20深度优先爬取策略所示，搜索引擎蜘蛛进入网站首页，沿着链接爬到A1网页，在A1中找到链接，爬到A2网页，然后按照A2中的链接爬到A3，然后爬A4、A5......直到没有满足爬取条件的网页，搜索引擎蜘蛛才返回首页。返回首页的爬虫以同样的方式继续爬取网页B1和更深的网页。爬完之后还回到首页爬下一个链接，最后爬完所有的页面。

　　图2.20 深度优先爬取策略

　　广度优先爬取策略是搜索引擎蜘蛛到达一个网页后，不会沿着一个链接进行爬取，而是在每一层链接都爬完之后，再爬取下一层网页的链接。图2.21 广度优先爬取策略。

　　图2.21广度优先爬取策略

　　上例中，搜索引擎蜘蛛来到网站的首页，在首页找到一级网页A、B、C的链接并进行爬取，然后再爬取下一个网页A、B、C依次为网页A。1、A2、A3、B1、B2、B3……，爬完第二层网页，再爬第三层网页A< @4、A5、A6……，终于爬取了所有的网页。

　　最佳优先级爬取策略是按照一定的算法对网页的重要程度进行划分。网页的重要程度主要通过PageRank、网站规模、响应速度等来判断，搜索引擎会优先抓取，等级高的会优先抓取。. 只有当PageRank等级达到一定等级时，才能被爬取爬取。实际蜘蛛在抓取网页时，会将页面上的所有链接采集到地址库中，进行分析，过滤掉PR较高的链接进行抓取。网站规模大，通常大网站可以获得更多搜索引擎的信任，大网站更新频率快，蜘蛛会优先爬行。网站的响应速度也是影响蜘蛛爬行的一个重要因素。在最优优先级爬取策略中，网站响应速度快，可以提高蜘蛛的工作效率，所以蜘蛛也会优先爬取，响应快。网站。

　　这三种爬行策略都有优点和缺点。例如，深度优先一般选择合适的深度，避免陷入海量数据中，从而限制了要爬取的网页数量；随着爬取的网页数量增加，搜索引擎需要排除大量不相关的网页链接，爬取效率会变低；最好的优先级会忽略很多小网站网页，影响互联网信息分化发展，流量几乎进入大网站，小网站很难发展。

　　在搜索引擎蜘蛛的实际爬取中，一般同时使用这三种爬取策略。经过一段时间的爬取，搜索引擎蜘蛛可以爬取互联网上的所有网页。但由于互联网资源海量，搜索引擎资源有限，通常只能抓取互联网中的一部分网页。

　　(4）蜘蛛抓取网页后，会进行测试，判断网页的值是否符合抓取标准。搜索引擎抓取网页后，会判断网页中的信息是否为垃圾信息，比如大量重复的文字内容、乱码、高度重复的收录内容等等。这些垃圾邮件蜘蛛不会爬，只会爬。

　　（5）搜索引擎判断出网页的价值后，会对有价值的网页进行收录。这个收录过程就是存储网页的爬取信息进入信息数据库，将网页信息按照一定的特征分类，以URL为单位存储。

　　搜索引擎的爬取和爬取是提供搜索服务的基本条件。借助大量的网页数据，搜索引擎可以更好地满足用户的查询需求。

　　本文节选自金楠所著的《seo搜索引擎详解》一书。更多内容可以关注靳南的博客或者选择购买本书。

0

2022-01-14

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎一种蜘蛛（Spider）的代理名称，搜索引擎爬行和抓取信息)

0 个评论

发起人