抓取动态网页(抓取动态网页大概可以这样做:/zenith不都能爬虫)

优采云 发布时间: 2021-12-25 21:05

  抓取动态网页(抓取动态网页大概可以这样做:/zenith不都能爬虫)

  抓取动态网页大概可以这样做:

  1、获取headers,

  2、找到该网站的cookie,记下来,

  3、设置抓取框,在scrapy.spiders中的default_cookie配置,

  实名反对@不用脑子的谢炎。1.这是不可能的;2.爬虫大部分需要高性能,跑在python上我觉得瓶颈会大部分在处理数据上面,而不是业务逻辑上;3.cookie写入很麻烦;4.爬虫的组件多了去了,几千上万个包,你要写整个框架;5.数据库压力巨大,你要维护好多个sqlite数据库,备份,恢复,sqlite的mongo;6.服务器几十万上百万台,爬那么点也是累死;7.还有很多欢迎补充。上面一条可以让所有的爬虫都变成挂机动作,要你干什么有啥。

  面向对象可以这样,你看看你这个网站对你有没有需求,

  不可以,除非加上感知机制。

  我大三上面的代码,大概一年前做网站前端实习在做。

  你需要pyspider

  其实linux上pythonscrapyceleryscrapy_redis/zenith/hashlib不都能爬虫。我是给工作室做网站前端的,也用python做爬虫,包括反爬虫,简单的代码好写,多调用一下api就行。hapyscrapy好像是用于web中间件的,有点麻烦的。你可以找下官方的文档就懂了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线