搜索引擎如何抓取网页api的api主要分为两大类

优采云发布时间: 2022-08-09 07:02

　　搜索引擎如何抓取网页api的api主要分为两大类：1.基于协议的抓取，抓取url的参数来进行搜索引擎爬虫的抓取，这种方式需要对网站对代码重新进行编码，对网站就有很高的要求，另外针对可抓取的站点和url数量有限，找了下知乎的回答：知乎抓取页面是怎么抓取的？有什么相关api？-知乎这个问题的回答，大体上，他的回答也是基于协议进行抓取方式的。

　　2.从网页提供方的反爬虫程序抓取网页这类都不用写爬虫了，直接去要给他们一个页面，他们会抓取，用反爬虫的工具，直接获取整个页面的url和参数，返回给我们，然后把下载的图片啥的返回给我们。很可惜，这个找不到实际代码，基本是没有办法抓取的。

　　上面的回答说的没错，就是google-encrypt，有些基于本地ssl/tls协议，

　　有文章说了一部分，同意@陈文文。网页都有指向服务器的js，而在浏览器会有一个headlesscookie来起作用。它们代表什么意思呢？就是说你的浏览器怎么会知道这些内容呢？同理，像收听小说，电台这些也不需要让浏览器知道这些东西。爬虫抓取网页时，是从服务器上获取这些你需要获取的数据，包括有pageurl这种。

　　那么怎么从获取服务器获取呢？那就是另外一个方面了，会涉及到浏览器api，需要提供资源才可以抓取。如何抓取呢？问答网站上一般有几个数据来源：一个是从别人（网站管理员或者投资人）注册的帐号里获取；另外一个是直接访问服务器。这些东西都是外界不可能看到的，服务器上保存了这些内容。那么当你从一个网站上下载时，实际上你是从服务器从网页提供方获取到pageurl的。

　　换句话说，你从别人那里买了一个帐号，就等于获取到了服务器的内容。那么想要爬取别人提供的服务器上的数据，就得提供有资源才可以。网站管理员或者投资人，这就是所谓的知识产权，他需要提供这些内容给你供你爬取，那怎么实现呢？如果你抓取过，应该也知道在服务器端每天产生着很多url，有个叫做cookie，用来记录，有哪些用户发过这些网址。

　　而记录这些的载体就是你的requesturl。那你没有request是抓取不到这些资源的。requesturl里包含的cookie就是你看不到的，你抓取到以后，怎么使用呢？以你的url发送的pageurl为例，它包含一个hashcode，把这个hashcode传给你的浏览器，就可以传给你一个以特定cookie为key的值，把那个值作为你要抓取的资源的参数。

　　拿这个作为encryptionkey就可以解密，传给服务器获取。拿到这个数据后，拿去用就行了。解密了过来，

0

2022-08-09

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页api的api主要分为两大类

0 个评论

发起人