文章网址采集器(红叶文章采集器软件特色(1)_北大MD5指纹排重算法 )
优采云 发布时间: 2022-02-13 18:10文章网址采集器(红叶文章采集器软件特色(1)_北大MD5指纹排重算法
)
红叶文章采集器是一个超级强大的网站文章采集器,英文名Fast_Spider,属于蜘蛛爬虫程序,用来< @网站采集海量精华文章,会直接丢弃垃圾网页信息,只保存有阅读值和浏览值的精华文章,自动进行HTM-TXT转换,下载并在需要时使用它。
红叶文章采集器软件功能
(1)本软件采用北大天网MD5指纹排序算法,同一个网页信息不会重复保存。
(2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个加权关键字, [[UR]]代表网页中的图片链接,[[TXT]]后面的文字。
(3)蜘蛛性能:软件开启300线程保证采集的效率。通过采集百万精华文章进行压力测试,用普通网友的联网电脑是参考标准,单台电脑一天可以遍历200万个网页,采集20万个精华文章,100万个精华文章5天< @k11@ >完成。
(4)正式版和免费版的区别在于:正式版允许将采集文章数据的本质自动保存为ACCESS数据库。
红叶文章采集器谨慎使用
1、抓取深度:填0表示无限抓取深度;填写 3 捕获第三层。
2、普通蜘蛛模式与分类蜘蛛模式的区别:假设URL入口为“”,如果选择普通蜘蛛模式,则会遍历“”中的每一个网页;如果选择分类爬虫模式,则只遍历每个页面内部的“”。
3、按钮“从MDB导入”:URL条目是从TASK.MDB批量导入的。
4、这个软件的原理采集就是不越站。例如,如果给定的条目是“”,它只会在百度站点内被抓取。
5、在使用本软件采集的过程中,偶尔会弹出一个或多个“错误对话框”,请忽略。如果关闭“错误对话框”,采集 软件将挂起。如果软件崩溃,之前的采集信息不会丢失。当再次启动软件执行采集时,已经采集的信息不会重新采集,可以很好的递增采集。
6、用户如何选择采集主题:例如,如果您想采集“股票”文章,只需使用那些“股票”网站作为 URL 条目即可它。