文章定时自动采集(文章定时自动采集,没有太多技术要求,我也在找)

优采云 发布时间: 2022-03-13 06:03

  文章定时自动采集(文章定时自动采集,没有太多技术要求,我也在找)

  文章定时自动采集,没有太多技术要求。我也在找这个,后来我一个学设计的朋友介绍我用了一个免费的python爬虫软件urllib3,挺好用的,不过貌似需要账号和邮箱之类的,不知道免费版功能怎么样,但你可以试一下看看。后来自己本地也用python编程编了一个,没花钱,反正就是两三天时间,采到五十多万的数据量了。

  百度一下,内含50万行*敏*感*词*。

  存储到数据库里面,然后通过爬虫爬取数据,按照业务逻辑打包成excel。再找合适的模型进行计算就好。数据量少点的可以自己写一个,数据量大的建议用开源的。

  不造楼主说的是不是这个。

  1、自己熟悉采集到的数据,

  2、自己写相应采集和提取程序;

  3、将自己爬取到的数据交给机器自动分析;从而获得结果。

  要明确楼主在问什么,因为当你回答之后一般要接下来继续根据楼主的指令思路判断数据最后应该转换为什么格式存储在哪个数据库存储。所以如果问题没有指明的话那么可以说有用sql爬取,这样就一目了然自己会多少点。数据量少的话可以考虑python这些库解决不同类型数据的多样化抓取问题,虽然有点一时不爽。数据量大的话根据要抓取的数据类型不同分析sql结构,比如只抓mongodb,redis,mysql,mongos,redis这些存储器的数据,或者mapreduce这些通过计算生成数据存储。也可以通过thrift这些通信技术通信。最终是想从头到尾理解问题再自己编程解决问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线