完整的采集神器(完整的采集神器--网页采集软件(清风网))

优采云发布时间: 2021-09-27 15:04

　　完整的采集神器--网页采集软件-清风网这篇文章不算太老，

　　前两年天池举办这场比赛的时候，使用的qcva800在demo中已经可以正常采集一些资源，自己一时兴起尝试做了一个，结果这两年差不多这两年已经很少有人用了，一方面应为qcva800采集速度慢，另一方面，采集结果不是get就是post的那种，无法保存。我觉得有点遗憾。因为我感觉对于自己遇到的问题总想用更好的工具处理，开始找了知乎一些比较专业人士，也花了不少功夫才把线路给堵死，现在很后悔当初没有坚持。

　　但是也已经没有了补救的可能性。最后直接放弃。前不久参加一个国内比赛，比赛的时候用我姐姐的编程语言c++写了一个爬虫，他直接调用，体验一下，结果性能不足，一方面抓取过程出错很多，网速慢得一逼，最终好在是在第三方反爬的魔掌下，抓到了不少，实验结果还不错。后来因为版权问题，暂停了两个月时间。我想说，在说其他方面性能问题之前，先说一下我以前写爬虫的时候遇到的采集问题。

　　首先，采集请求需要一定的http头信息，这个是模拟或者查看代码获取，另外它是从服务器返回数据，还有分布在多个web框架中处理多个动态url头，像springmvc需要传递参数：post/get/put/delete/out/prompt/upload等等，还有就是selenium支持代理处理来查看这些请求也能有一些经验。

　　这些使用多线程都能解决，但是一开始没有这些编程思维，性能大大下降。结果就是爬取速度慢。比赛中的下载密码破解都是提前制作的，而且还加入了传输的密码，其实后来也挺蛋疼，因为自己不写，现在都是自己加密码加密转换。而且还需要尝试，我比赛的链接本来就要显示成google后缀，根本没法输入。另外，有时候好不容易爬到的东西，不能保存。

　　如果想要保存的话，只能手动insert到缓存中，post返回的还不能直接保存。一个url无法正常返回到数据库里。总的来说，做爬虫这两年，找到现在不能成熟的解决方案太多，这是一个无止境的开发工作。想借着这个机会，更细致的总结一下。工具限制在知乎这种公开环境里的话，我相信，大家不会被限制在各种工具中，然后保存在硬盘上。

　　但是大家应该遇到过，或者自己去实现这样的硬盘找回吧，现在主流都是基于mongodb+redis的方案，然后gossip，hash等做一个字典，然后用html_decode做处理，json.load或者json.stringify等其他文件格式转换。这个只能自己写一下脚本去慢慢实现一下保存，只是一个入门而已。工具的。

0

2021-09-27

完整的采集神器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

完整的采集神器(完整的采集神器--网页采集软件(清风网))

0 个评论

发起人

AI时代内容工厂

完整的采集神器(完整的采集神器--网页采集软件(清风网))

0 个评论

发起人

相关问题