网站采集工具(现代多核CPU的性能历史版本性能详解(二):第一版)
优采云 发布时间: 2021-11-04 21:05网站采集工具(现代多核CPU的性能历史版本性能详解(二):第一版)
该软件的工作原理是从初始 URL 中查找外部 网站。比如初始页面有30个外部网站,那么继续爬取这30个外部网站,
如果可以正常访问,只要进入数据库收录,在这30个网站中查找外部网站,如果每个站有30个外部网站,就是30个* 30=900
然后访问这900个网站,把无法访问的去掉,找到正常访问的去掉再添加到数据库中,然后在他们的页面中找到外部的网站,如果需要返回来回
形成裂变蜘蛛网!
当然,这里需要处理的事情还有很多,比如爬取记录的去重、多线程之间的干扰等等。
历时一个月,终于开发调试出2.0的稳定版。更好地利用现代多核 CPU 的性能
历史版本性能:
第一个版本10分钟跑出1W+个网址,已经很给力了
2. 版本 5 在 10 分钟内用完 2.80,000。请注意,这些都是经过重复数据删除的 URL,并且都是顶级域。
3.0 版本 10 分钟采集130,000+pcs网站
3.版本2采集2100万使用时间9分钟
每一次升级都是一次质的飞越,购买过的朋友快来下载最新版本吧!
二级域名不算,我们不采集没用
具体性能取决于自己的电脑配置,可以根据自己的电脑配置适当调整线程数
这是我5年前买的最低配给。它还应该消除先磨砺工具的需要。
3.6 版本界面:
3.4 版本界面:
下面是3.版本2界面供大家预览
输入你想要关键词启动的采集
这个版本基本上是最终的形式。估计不会有大的变化。可以关注更新日志。如果有变动,会在下面的日志中列出!
具体软件操作可以看演示视频!
建议不要追求过多的线程数。这应该根据您的网络带宽进行调整。如果线程数过大,同时访问的站点就会越多。那么其中一些可能会因为您而无法打开。宽带不够用