网站采集工具(现代多核CPU的性能历史版本性能详解(二):第一版)

优采云 发布时间: 2021-11-04 21:05

  网站采集工具(现代多核CPU的性能历史版本性能详解(二):第一版)

  该软件的工作原理是从初始 URL 中查找外部 网站。比如初始页面有30个外部网站,那么继续爬取这30个外部网站,

  如果可以正常访问,只要进入数据库收录,在这30个网站中查找外部网站,如果每个站有30个外部网站,就是30个* 30=900

  然后访问这900个网站,把无法访问的去掉,找到正常访问的去掉再添加到数据库中,然后在他们的页面中找到外部的网站,如果需要返回来回

  形成裂变蜘蛛网!

  当然,这里需要处理的事情还有很多,比如爬取记录的去重、多线程之间的干扰等等。

  历时一个月,终于开发调试出2.0的稳定版。更好地利用现代多核 CPU 的性能

  历史版本性能:

  第一个版本10分钟跑出1W+个网址,已经很给力了

  2. 版本 5 在 10 分钟内用完 2.80,000。请注意,这些都是经过重复数据删除的 URL,并且都是顶级域。

  3.0 版本 10 分钟采集130,000+pcs网站

  3.版本2采集2100万使用时间9分钟

  每一次升级都是一次质的飞越,购买过的朋友快来下载最新版本吧!

  二级域名不算,我们不采集没用

  具体性能取决于自己的电脑配置,可以根据自己的电脑配置适当调整线程数

  这是我5年前买的最低配给。它还应该消除先磨砺工具的需要。

  3.6 版本界面:

  

  3.4 版本界面:

  

  下面是3.版本2界面供大家预览

  

  输入你想要关键词启动的采集

  这个版本基本上是最终的形式。估计不会有大的变化。可以关注更新日志。如果有变动,会在下面的日志中列出!

  具体软件操作可以看演示视频!

  建议不要追求过多的线程数。这应该根据您的网络带宽进行调整。如果线程数过大,同时访问的站点就会越多。那么其中一些可能会因为您而无法打开。宽带不够用

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线