在线抓取网页(python爬虫框架pythonitchat框架必读(一))

优采云发布时间: 2021-12-09 09:13

　　在线抓取网页内容，可以用scrapy爬虫框架pythonitchat，并没有添加你说的协议。

　　代理爬取协议是http/1.1,貌似有说明的。也可以代理抓取爬虫的，只是不能响应爬虫或直接响应数据的反爬虫机制，要选用可以抓取响应的代理。

　　你可以爬虫一次代理，在同一网站重复使用。这样你每一次都可以直接获取同一数据。

　　我说答一下python爬虫有两种方式：1，模拟get请求把资源放进request里面(这里有两种请求，一个是json一个是post);(ps：因为你这里有内容都是ajax加载)代码:%requests.get('/').json()2，模拟post请求，然后传入参数response就可以使用request里面的格式参数。

　　这里就会遇到解析数据的问题(真是一头雾水中)代码:%requests.post('').content.json()看到这里楼主应该明白了，就是在同一条数据放在一个request里面爬就可以了。

　　看你的要求,我觉得应该在选择这种爬虫框架的时候应该注意协议问题,不同的协议http/tls,https虽然数据都是http/tls的,但是生成请求的方式不同,结果也就不同。一个简单的代理爬虫分析--python爬虫必读也可以看下这个，复杂一点的爬虫,需要代理的时候可以先在本地写一个自己定义的解析函数,然后把爬虫发到这个函数里面。

0

2021-12-09

在线抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在线抓取网页(python爬虫框架pythonitchat框架必读(一))

0 个评论

发起人