搜索引擎如何抓取网页(一下-image（抓取图片）-news（视频）)

优采云发布时间: 2022-01-27 21:15

　　今天主要讲解一下搜索引擎的工作流程。一般来说，主要分为四个模块：

　　一、抓取模块

　　1、蜘蛛定义

　　为了爬取 Internet 上的各种页面，搜索引擎必须有一个 24 小时自动爬取页面的程序。我们称这个程序为“蜘蛛”，在互联网上也被称为“机器人”。

　　百度的爬虫程序一般称为百度蜘蛛。常见的有Baiduspider、Baiduspider-mobile（抓取wap）、Baiduspider-image（抓取图片）、Baiduspider-video（抓取视频）、Baiduspider-news（抓取新闻）。

　　谷歌的爬虫程序一般称为谷歌机器人，常见的有Googlebot和Googlebot-Mobile（爬虫wap）。

　　360的爬虫程序一般称为360蜘蛛，常见的只有一种：360Spider。

　　当蜘蛛访问任何站点时，它会访问网站根目录下的 robots.txt 文件。该文件限制了搜索引擎蜘蛛的抓取范围。所有蜘蛛都必须遵守此文件中的协议。此外，我们还可以从一些网站的 robots.txt 文件中查看搜索引擎蜘蛛的最新名称。

　　2、如何吸引蜘蛛爬取网站中的页面

　　(1）权重越高，蜘蛛出现的频率越高；

　　(2）更新越快，蜘蛛来的越频繁；

　　(3）导入链接越多，蜘蛛来的越频繁；

　　(4）到首页的点击距离越小，爬虫速度越快收录；

　　网站在成立初期，搜索引擎可能不知道我们的网站。我们需要通过以下两个方面告诉搜索引擎：

　　（1）通过百度站长平台提交网站链接；

　　（2）外部链接：我们可以在一些已经收录的站点中放置我们自己的站点链接，以吸引蜘蛛访问、发布软文或交换友好链接。

　　二、过滤器模块

　　由于互联网中存在大量垃圾页面、重复内容页面和非内容页面，这些页面极大地浪费了搜索引擎的服务器资源，对用户来说毫无用处。为了避免这些垃圾页面占用自己的资源，所有的搜索引擎也为了更好的用户体验，需要对这些蜘蛛爬回来的页面进行过滤。

　　在后台，搜索引擎通过提取文本、中文分词、去除停用词和去除重复来过滤掉垃圾页面。请特别注意重复数据删除。同一篇文章文章在不同站点或同一站点的不同 URL 中重复出现。搜索引擎非常讨厌这样的内容页面，甚至可能被视为垃圾页面。

　　三、收录模块

　　所有被搜索引擎认为对用户有价值和有用的页面都会被搜索引擎存储在索引数据中，我们称之为收录模块。只有搜索引擎存储在索引数据库中的 URL 才有可能参与排名。

　　那么如何检查一个页面是否已经收录？

　　如图，最常用的方法是将页面的网址（URL）放入百度搜索框。如果出现该页面的搜索结果，则证明该页面已被百度（其他搜索引擎）收录。相似地）。

　　图片中的网址仅用于案例说明

　　四、排序模块

　　对于存储在搜索引擎索引库中的页面，通过正向索引、倒排索引和各种算法得到每个页面的排名分数，并根据得到的分数对排名分数进行排序。这是我们看到的最终排名结果。

0

2022-01-27

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册