完美:要不要我跟你推荐个自动采集器是非常好用的
优采云 发布时间: 2022-11-24 12:36完美:要不要我跟你推荐个自动采集器是非常好用的
自动采集器是非常好用的,
前提是你懂python,会调用第三方接口,会使用浏览器和数据库交互。
" />
要不要我跟你推荐个爬虫工具?1分钟就能把知乎都采到,即使多个平台,selenium都可以全都抓到,
ad168
" />
老实说,如果不需要做好隐私的数据采集,必须用bs4,ga,关键是同步性,web有ajax交互的时候,一定要搞好同步性。至于爬虫,除了自带的chrome,其他的可以用别的,选择多一点。比如webqq这个大型p2p网站,爬虫也是webqq自带的。开发爬虫的风险实在太高,非常容易封ip封qq,封python,封asp。
现在靠谷歌浏览器了,前段时间的很多问题。如果你真想爬多个平台,那就找一个给你好爬的host,比如你只要在这个地址上没被墙过,就可以爬。实在是难,就再换个,但是ga怎么弄最好懂一点。
如果只是获取标题信息,selenium和bs4应该够用了。如果有代码稍作修改,像htmlxpath,cssxpath,jsonxpath的话,jsonlite可以满足你的需求。