文章定时自动采集经验分享,不全,有错误欢迎提出
优采云 发布时间: 2022-05-31 09:00文章定时自动采集经验分享,不全,有错误欢迎提出
文章定时自动采集,主要分为采集时间、采集内容、自动分段处理三个步骤。收藏前一定要仔细阅读。和其他开源爬虫框架,一样会遇到编程的各种坑,不是开发的问题,是使用上遇到的问题。经验之谈,建议仅供参考。
个人经验分享,不全,有错误欢迎提出,
1、使用beautifulsoup的*敏*感*词*采集各个网站首页(爬取各大厂商官网,
2、找一个小工具(比如下echo-centre)抓取全网,
3、定时爬取前两步所得的数据,保存到mongodb、redis库里面,
4、利用python做list透析,利用循环、subset生成大量set和entries进行存储,redis做索引等,作为大流量检索源。
flaskhttp库
redisrepomailpanelwordcloudmongodb可用
先知道你需要什么,再用redis爬取到这些内容并存储在mongodb,再利用python的list,redis等方法或者wordcloud或者plotly,都能满足你的需求。为什么从传统的开发方法,不用互联网思维,而是一定要上互联网思维。每次对于你都可以是一次提升。你想看的快,请用爬虫,爬虫可以让一切事情变得很快,让业务变得很简单。python用的少也能做到很快。
爬虫是个入门容易,入门之后有困难的活。如果你想用rewrite,你需要有fake_header。如果你想用requests模拟登录,你还得有fake_header。如果你用re方法发送请求,还得有fake_header。如果你用re方法写代码,fake_header是必要的。如果你用上res_eval方法,还要有fake_header。
如果你用set_entries,还得有fake_header。看个例子吧。爬虫有个最大的缺点,就是反爬取做的不好的时候没有任何用处。我做过n个rewrite配合cookie、fake_header、fake_requests去申请账号、申请验证码、收集发货地址、手机号、开通快递服务、收集包裹地址的爬虫。
最大的坏处是rewrite完全不在意cookie的,不知道说明白了没。ifsomecookieischeckedduringseveralscripts:rewritecookie。