测评:网站自动采集系统评测:一加代码优化,ui优化
优采云 发布时间: 2022-10-17 05:07测评:网站自动采集系统评测:一加代码优化,ui优化
网站自动采集系统评测:reeder代码优化,一加代码优化,ui优化,一分钟就能发现一加采集代码优化很不错,但总有小bug,代码优化不错,而且一加代码多,所以加载速度慢,经常卡死,推荐的decodeer/coder-explorerchrome插件js引擎优化是目前我觉得网站采集代码优化算不错的,推荐1(移动站采集最好用)。
目前jsonp可以用googlespanner,zeptojs等等,下载推荐下载ngreasyfork/jsonp123456
redis记录并过滤ip是要开发者做的事情.而且jsonp这种并发问题都是第三方的.
reeder
可以用pandas库自带的redis数据结构,然后集合redis和csv文件数据做一个json+as表格的格式。用redis读写效率比较高,但是上传会遇到延迟。不推荐基于json做redis集合的采集。
用hexo做一个app,用js来采集你想要的站点,然后自己再调用,
一加爬虫是针对自己爬虫的一个封装,提供redis持久化、通讯和存储功能。如果你要爬取一些非主流、被人遗忘的站点,这种方式是最佳的,因为不用担心被封站或者无效页面。比如:山寨黄蜂从哪里申请的官网;智汇投资从哪里申请的官网;十一个互联网和金融方面的新闻平台;广告,文章,
decodeer和coder-explorer;emergeeditor和hexo-wordpress;感觉应该都会比crazymanager强一些。crazymanager只能处理html这些文本,要想用js完成内容,还是得借助chrome插件request。另外,现在能直接从各种网站抓数据,抓取规则数据,应该不错,在团队里,应该还需要考虑联合爬虫,搞起来就复杂了。