搜索引擎如何抓取网页api的api主要分为两大类

优采云 发布时间: 2022-08-09 07:02

  搜索引擎如何抓取网页api的api主要分为两大类

  搜索引擎如何抓取网页api的api主要分为两大类:1.基于协议的抓取,抓取url的参数来进行搜索引擎爬虫的抓取,这种方式需要对网站对代码重新进行编码,对网站就有很高的要求,另外针对可抓取的站点和url数量有限,找了下知乎的回答:知乎抓取页面是怎么抓取的?有什么相关api?-知乎这个问题的回答,大体上,他的回答也是基于协议进行抓取方式的。

  2.从网页提供方的反爬虫程序抓取网页这类都不用写爬虫了,直接去要给他们一个页面,他们会抓取,用反爬虫的工具,直接获取整个页面的url和参数,返回给我们,然后把下载的图片啥的返回给我们。很可惜,这个找不到实际代码,基本是没有办法抓取的。

  

  上面的回答说的没错,就是google-encrypt,有些基于本地ssl/tls协议,

  有文章说了一部分,同意@陈文文。网页都有指向服务器的js,而在浏览器会有一个headlesscookie来起作用。它们代表什么意思呢?就是说你的浏览器怎么会知道这些内容呢?同理,像收听小说,电台这些也不需要让浏览器知道这些东西。爬虫抓取网页时,是从服务器上获取这些你需要获取的数据,包括有pageurl这种。

  那么怎么从获取服务器获取呢?那就是另外一个方面了,会涉及到浏览器api,需要提供资源才可以抓取。如何抓取呢?问答网站上一般有几个数据来源:一个是从别人(网站管理员或者投资人)注册的帐号里获取;另外一个是直接访问服务器。这些东西都是外界不可能看到的,服务器上保存了这些内容。那么当你从一个网站上下载时,实际上你是从服务器从网页提供方获取到pageurl的。

  

  换句话说,你从别人那里买了一个帐号,就等于获取到了服务器的内容。那么想要爬取别人提供的服务器上的数据,就得提供有资源才可以。网站管理员或者投资人,这就是所谓的知识产权,他需要提供这些内容给你供你爬取,那怎么实现呢?如果你抓取过,应该也知道在服务器端每天产生着很多url,有个叫做cookie,用来记录,有哪些用户发过这些网址。

  而记录这些的载体就是你的requesturl。那你没有request是抓取不到这些资源的。requesturl里包含的cookie就是你看不到的,你抓取到以后,怎么使用呢?以你的url发送的pageurl为例,它包含一个hashcode,把这个hashcode传给你的浏览器,就可以传给你一个以特定cookie为key的值,把那个值作为你要抓取的资源的参数。

  拿这个作为encryptionkey就可以解密,传给服务器获取。拿到这个数据后,拿去用就行了。解密了过来,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线