网站文章采集器有不少,你应该想做外包吧
优采云 发布时间: 2021-08-14 18:02网站文章采集器有不少,你应该想做外包吧
网站文章采集器有不少,例如自由掘金、mojo等,对比一下这些api,寻找它们的模式,其实最重要的是看数据传输的是不是安全,如果不安全,api抓取下来的图片或者js文件就失去了用处。
您可以使用一款开源的leafletapi接口采集服务,它提供了get、post等一些常用的方式进行网站图片的采集。
cromputer/soft-croc-web
老老实实用django吧.用redis也可以,但总归不符合微软的习惯.
我也有一个和你类似的思路
可以试试这个ps-web文档。
找外包,不过那种很坑。你应该是想做外包吧,这个要慢慢积累。
可以用中科院自动化所的云端脚本、门户网站文章的exif抓取和githubpages、segmentfault、果壳等、网站站长常用的网址导航、pin、qq-update。
最快的方法是直接付费写程序去采集,当然对于任何职业来说,业余爱好尚可、如果是业余做自己的网站,全职投入是必须的。
用muduo
大牛都会自己写server部署几天就完成基本工作,所以用别人的python去抓http响应貌似没多大必要。但是,某些大公司的你看起来是在爬但有可能是在干什么你不知道的事儿,
自己写一个程序去爬
找*敏*感*词*的网站支持这些图片在自己网站上保存。