网站采集工具(现代多核CPU的性能历史版本性能详解（二）：第一版)

优采云发布时间: 2021-11-04 21:05

　　该软件的工作原理是从初始 URL 中查找外部网站。比如初始页面有30个外部网站，那么继续爬取这30个外部网站，

　　如果可以正常访问，只要进入数据库收录，在这30个网站中查找外部网站，如果每个站有30个外部网站，就是30个* 30=900

　　然后访问这900个网站，把无法访问的去掉，找到正常访问的去掉再添加到数据库中，然后在他们的页面中找到外部的网站，如果需要返回来回

　　形成裂变蜘蛛网！

　　当然，这里需要处理的事情还有很多，比如爬取记录的去重、多线程之间的干扰等等。

　　历时一个月，终于开发调试出2.0的稳定版。更好地利用现代多核 CPU 的性能

　　历史版本性能：

　　第一个版本10分钟跑出1W+个网址，已经很给力了

　　2. 版本 5 在 10 分钟内用完 2.80,000。请注意，这些都是经过重复数据删除的 URL，并且都是顶级域。

　　3.0 版本 10 分钟采集130,000+pcs网站

　　3.版本2采集2100万使用时间9分钟

　　每一次升级都是一次质的飞越，购买过的朋友快来下载最新版本吧！

　　二级域名不算，我们不采集没用

　　具体性能取决于自己的电脑配置，可以根据自己的电脑配置适当调整线程数

　　这是我5年前买的最低配给。它还应该消除先磨砺工具的需要。

　　3.6 版本界面：

　　3.4 版本界面：

　　下面是3.版本2界面供大家预览

　　输入你想要关键词启动的采集

　　这个版本基本上是最终的形式。估计不会有大的变化。可以关注更新日志。如果有变动，会在下面的日志中列出！

　　具体软件操作可以看演示视频！

　　建议不要追求过多的线程数。这应该根据您的网络带宽进行调整。如果线程数过大，同时访问的站点就会越多。那么其中一些可能会因为您而无法打开。宽带不够用

0

2021-11-04

网站采集工具

0 个评论

要回复文章请先登录或注册