抓取动态网页(抓取动态网页大概可以这样做：/zenith不都能爬虫)

优采云发布时间: 2021-12-25 21:05

　　抓取动态网页大概可以这样做：

　　1、获取headers，

　　2、找到该网站的cookie,记下来，

　　3、设置抓取框，在scrapy.spiders中的default_cookie配置，

　　实名反对@不用脑子的谢炎。1.这是不可能的；2.爬虫大部分需要高性能，跑在python上我觉得瓶颈会大部分在处理数据上面，而不是业务逻辑上；3.cookie写入很麻烦；4.爬虫的组件多了去了，几千上万个包，你要写整个框架；5.数据库压力巨大，你要维护好多个sqlite数据库，备份，恢复，sqlite的mongo；6.服务器几十万上百万台，爬那么点也是累死；7.还有很多欢迎补充。上面一条可以让所有的爬虫都变成挂机动作，要你干什么有啥。

　　面向对象可以这样，你看看你这个网站对你有没有需求，

　　不可以，除非加上感知机制。

　　我大三上面的代码，大概一年前做网站前端实习在做。

　　你需要pyspider

　　其实linux上pythonscrapyceleryscrapy_redis/zenith/hashlib不都能爬虫。我是给工作室做网站前端的，也用python做爬虫，包括反爬虫，简单的代码好写，多调用一下api就行。hapyscrapy好像是用于web中间件的，有点麻烦的。你可以找下官方的文档就懂了。

0

2021-12-25

抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取动态网页(抓取动态网页大概可以这样做：/zenith不都能爬虫)

0 个评论

发起人