文章定时自动采集经验分享，不全，有错误欢迎提出

优采云发布时间: 2022-05-31 09:00

　　文章定时自动采集，主要分为采集时间、采集内容、自动分段处理三个步骤。收藏前一定要仔细阅读。和其他开源爬虫框架，一样会遇到编程的各种坑，不是开发的问题，是使用上遇到的问题。经验之谈，建议仅供参考。

　　个人经验分享，不全，有错误欢迎提出，

　　1、使用beautifulsoup的*敏*感*词*采集各个网站首页（爬取各大厂商官网，

　　2、找一个小工具（比如下echo-centre)抓取全网，

　　3、定时爬取前两步所得的数据，保存到mongodb、redis库里面，

　　4、利用python做list透析，利用循环、subset生成大量set和entries进行存储，redis做索引等，作为大流量检索源。

　　flaskhttp库

　　redisrepomailpanelwordcloudmongodb可用

　　先知道你需要什么，再用redis爬取到这些内容并存储在mongodb，再利用python的list,redis等方法或者wordcloud或者plotly,都能满足你的需求。为什么从传统的开发方法，不用互联网思维，而是一定要上互联网思维。每次对于你都可以是一次提升。你想看的快，请用爬虫，爬虫可以让一切事情变得很快，让业务变得很简单。python用的少也能做到很快。

　　爬虫是个入门容易，入门之后有困难的活。如果你想用rewrite，你需要有fake_header。如果你想用requests模拟登录，你还得有fake_header。如果你用re方法发送请求，还得有fake_header。如果你用re方法写代码，fake_header是必要的。如果你用上res_eval方法，还要有fake_header。

　　如果你用set_entries，还得有fake_header。看个例子吧。爬虫有个最大的缺点，就是反爬取做的不好的时候没有任何用处。我做过n个rewrite配合cookie、fake_header、fake_requests去申请账号、申请验证码、收集发货地址、手机号、开通快递服务、收集包裹地址的爬虫。

　　最大的坏处是rewrite完全不在意cookie的，不知道说明白了没。ifsomecookieischeckedduringseveralscripts:rewritecookie。

0

2022-05-31

文章定时自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章定时自动采集经验分享，不全，有错误欢迎提出

0 个评论

发起人

AI时代内容工厂

文章定时自动采集经验分享，不全，有错误欢迎提出

0 个评论

发起人

相关问题