怎样抓取网页数据(索引数据库搜刮引擎的原因及解决办法（一）_)

优采云发布时间: 2022-02-10 08:11

　　之前不太了解搜索引擎的原理，直到最近被问到口试，从百度上找到相关资料，所以转载保存，原网址：

　　搜索引擎并没有真正搜索互联网，它实际上搜索了事后清理的网页索引数据库。

　　真正意义上的搜索引擎一般是指采集互联网上数万到数十亿的网页，并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户搜索某个关键字时，页面内容中收录该关键字的所有网页都将作为搜索结果进行搜索。经过复杂的算法排序后，结果会按照与搜索关键词的相关性进行排序。

　　今天的搜索引擎已经广泛使用超链接分析技术，不仅对被索引的网页本身的内容进行分析，还对网页的所有链接的URL、AnchorText，甚至链接周围的墨迹进行索引。因此，有时候，即使某个网页A中没有“恶魔撒旦”这样的词，如果另一个网页B通过“恶魔撒旦”的链接指向这个网页A，那么用户将无法搜索“恶魔撒旦”。可以找到页面 A。并且，如果有更多的网页（C、D、E、F...）有一个名为“恶魔撒旦”的链接指向这个网页 A，或者源网页（B、C、D、E、F） ) 给出这个链接...) 越好，当用户搜索“恶魔撒旦”时，Web A 被认为越相关，排名就越高。

　　搜索引擎的原理可以看成是三个步骤：从互联网上抓取网页→建立索引库→在索引库中搜索和排序。

　　从互联网上抓取网页

　　使用Spider系统程序，可以自动聚合来自互联网的网页，自动访问互联网，并跟随任何网页中的所有URL到其他网页，重复这个过程，将所有已经爬取的网页聚合回来。

　　创建索引数据库

　　集合返回的网页由分析索引系统分析，相关网页信息（包括网页的URL、编码示例、页面内容收录的关键字、关键字的位置、时间出生，大小，以及与其他网页的链接关系）被提取。等），按照一定的相关性算法进行大量复杂的计算，得到每个网页对页面内容和超链接中的每个关键字的相关性（或重要性），然后利用相关信息建立网页索引数据库。

　　在索引数据库中搜索和排序

　　当用户搜索关键字时，搜索系统从网页索引数据库中查找所有适合该关键字的相关网页。由于搜索所有相关网页的关键词的相关性已经计算过了，只要根据已有的相关性值进行排名，相关性越高，排名越高。

　　最初，页面生成系统将构建搜索结果的链接位置和页面内容，并将其发送给用户。

　　搜索引擎的蜘蛛一般需要定期重新访问所有网页（每个搜索引擎的周期可以不同，可以是几天、几周或几个月，也可以有不同的更新频率对于不同优先级的页面），并更新网页索引数据库。，反映网页内容的更新环境，添加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化的环境就会反映在用户查询的结果中。

　　虽然只有一个互联网，但每个搜索引擎的能力和偏好都不一样，所以爬取的网页不一样，排序算法也不一样。大型搜索引擎的数据库存储着互联网上数亿到数十亿的网页索引，数据量达到数千甚至数万G。但即使最大的搜索引擎建立了跨越20亿网页的索引库，也只能占到互联网上热门网页的不到30%，而且不同搜索引擎之间的网页数据叠加率一般都在70以下%。我们使用不同搜索引擎的主要原因是它们可以分别搜索不同的内容。在网上，

　　您应该有这样的想法：搜索引擎只能找到存储在其网络索引数据库中的内容。你也应该有这个观点：如果搜索引擎的网页索引库应该有而你没有找到，那是你的能力问题，学习搜索技巧可以大大提高你的搜索能力。

0

2022-02-10

怎样抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

怎样抓取网页数据(索引数据库搜刮引擎的原因及解决办法（一）_)

0 个评论

发起人