搜索引擎如何抓取网页(搜索引擎抓取方式是怎样的？(一)_八维教育)

优采云发布时间: 2021-12-19 18:02

　　搜索引擎如何抓取网页？网页源代码通常是不公开的，搜索引擎通过分析中间页（如源代码）是否被重定向到正确页面（如链接错误、域名错误、网址超长等），判断该页是否已经存在有效url，自动继续抓取等方式进行抓取。回归正题，搜索引擎页面是如何抓取？中间页是什么？常见的中间页有百度搜索结果页、google搜索结果页、凤凰搜索结果页、百度首页首页、谷歌首页首页、搜狗首页首页、360搜索首页首页、搜狐搜索首页首页、58同城首页首页首页、今日头条首页首页首页、手机百度首页首页首页等等，他们是展示搜索结果最常见的页面。

　　由此可见，中间页已经是一个很成熟且功能完善的web搜索网页源代码抓取搜索引擎。搜索引擎之前抓取过网页吗？搜索引擎在收集了大量页面后，通过分析原有页面源代码后，进行提取分析，判断该页面是否已经存在有效url。显然，中间页不是一个人工进行人工抓取，而是机器完成。第一步是用大量的爬虫抓取大量网页源代码，判断该页面是否已经存在有效url。

　　机器最终会大量抓取一个页面、源代码形成一个集合，这些集合通过包括cookie、邮件集合等各种非人工的方式让机器进行抓取，也会让其他搜索引擎进行跟进抓取。依此类推，后续机器会抓取大量页面，由于数量巨大，所以需要抓取链接，后续还会抓取第三方主页、文章、图片等，将大量的网页连接进行字段保存并提取url，再次以更多的方式展示给用户。

　　搜索引擎抓取方式是怎样的？搜索引擎通过大量爬虫抓取网页源代码，可以划分为两类：第一种，单类型抓取。通过方法1，搜索引擎抓取网页源代码前，通过redirectjsapi连接，再通过一些正则和各种方法(如python)，去匹配其中的activex标签中的url，最终匹配成功即可进行抓取。第二种，双类型抓取。

　　一种是通过文件采集的方式抓取，一种是用cookie作为信息加载的方式抓取。通过文件采集的方式可以通过js加载的方式进行方法加载，用cookie作为信息加载的方式可以通过xmlhttprequest加载的方式进行方法加载。搜索引擎爬虫连接redirectjsapi抓取的方式，就是常见的单类型爬虫连接redirectjsapi方式进行的抓取。

　　js连接抓取方式连接redirectjsapi是selenium提供的，搜索引擎多数采用js连接抓取，可以发现采用js连接抓取的主要为第一种redirectjsapi抓取方式。搜索引擎本地编写爬虫，先搜索页面源代码，然后对源代码进行解析、提取url，再与其他搜索引擎抓取进行对比，判断是否匹配到关键词进行跳转，抓取相应结果。搜索引擎本地编写爬虫，先搜索页面源代码，再对源代。

0

2021-12-19

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎抓取方式是怎样的？(一)_八维教育)

0 个评论

发起人