ajax抓取网页内容的方法有很多种,ajax代理接口

优采云 发布时间: 2022-08-19 06:03

  ajax抓取网页内容的方法有很多种,ajax代理接口

  

  ajax抓取网页内容的方法有很多种,如果目标网站已经对返回正常内容做了requestlist的话,那么还可以通过爬虫代理接口完成抓取。如果网站还在对requestlist返回正常的话,在第一次抓取网页的时候,可以通过判断返回requestlist的规律完成抓取。首先判断他的返回requestlist的规律,可以通过这些规律获取这些返回的requestidxxxbooks/5000,比如做网络请求的sleep是1-3,抓取也要这样做,flooding可以做出最大点击次数,剩余抓取次数和最大点击次数差不多,通过flooding可以知道最大点击次数除以sleep来判断下一次抓取request的id有可能是多少。

  

  然后判断get请求的返回结果是否与返回正常的不同,比如请求article.json来抓取,返回article的返回结果是两个字符串,一个是html,一个是json,那么可以试试把json转化成字符串再请求,这样抓取时就是没有返回json所对应的html内容,即从article转换出来的html里没有json字符串。

  其他的爬虫代理也是这么判断的,先通过判断返回正常的返回结果来判断规律是否与返回requestlist不同再进行抓取操作。接下来可以爬取数据库里的数据,因为要抓取的对象都是由server生成请求记录的(类似爬虫请求请求记录),所以可以通过判断请求记录的规律,从数据库中直接爬取到该对象的access_token,通过这个access_token请求对象时,会被弹出验证码验证请求是否正确。最后根据规律取到这个对象的server。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线