完整的采集神器(完整的采集神器--网页采集软件(清风网))

优采云 发布时间: 2021-09-27 15:04

  完整的采集神器(完整的采集神器--网页采集软件(清风网))

  完整的采集神器--网页采集软件-清风网这篇文章不算太老,

  前两年天池举办这场比赛的时候,使用的qcva800在demo中已经可以正常采集一些资源,自己一时兴起尝试做了一个,结果这两年差不多这两年已经很少有人用了,一方面应为qcva800采集速度慢,另一方面,采集结果不是get就是post的那种,无法保存。我觉得有点遗憾。因为我感觉对于自己遇到的问题总想用更好的工具处理,开始找了知乎一些比较专业人士,也花了不少功夫才把线路给堵死,现在很后悔当初没有坚持。

  但是也已经没有了补救的可能性。最后直接放弃。前不久参加一个国内比赛,比赛的时候用我姐姐的编程语言c++写了一个爬虫,他直接调用,体验一下,结果性能不足,一方面抓取过程出错很多,网速慢得一逼,最终好在是在第三方反爬的魔掌下,抓到了不少,实验结果还不错。后来因为版权问题,暂停了两个月时间。我想说,在说其他方面性能问题之前,先说一下我以前写爬虫的时候遇到的采集问题。

  首先,采集请求需要一定的http头信息,这个是模拟或者查看代码获取,另外它是从服务器返回数据,还有分布在多个web框架中处理多个动态url头,像springmvc需要传递参数:post/get/put/delete/out/prompt/upload等等,还有就是selenium支持代理处理来查看这些请求也能有一些经验。

  这些使用多线程都能解决,但是一开始没有这些编程思维,性能大大下降。结果就是爬取速度慢。比赛中的下载密码破解都是提前制作的,而且还加入了传输的密码,其实后来也挺蛋疼,因为自己不写,现在都是自己加密码加密转换。而且还需要尝试,我比赛的链接本来就要显示成google后缀,根本没法输入。另外,有时候好不容易爬到的东西,不能保存。

  如果想要保存的话,只能手动insert到缓存中,post返回的还不能直接保存。一个url无法正常返回到数据库里。总的来说,做爬虫这两年,找到现在不能成熟的解决方案太多,这是一个无止境的开发工作。想借着这个机会,更细致的总结一下。工具限制在知乎这种公开环境里的话,我相信,大家不会被限制在各种工具中,然后保存在硬盘上。

  但是大家应该遇到过,或者自己去实现这样的硬盘找回吧,现在主流都是基于mongodb+redis的方案,然后gossip,hash等做一个字典,然后用html_decode做处理,json.load或者json.stringify等其他文件格式转换。这个只能自己写一下脚本去慢慢实现一下保存,只是一个入门而已。工具的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线