免费的文章采集工具(红叶文章采集器软件特色(1)_北大MD5指纹排重算法)
优采云 发布时间: 2021-12-27 18:20免费的文章采集工具(红叶文章采集器软件特色(1)_北大MD5指纹排重算法)
红叶文章采集器
是一个超级强大的网站文章采集器
。英文名称为Fast_Spider,属于蜘蛛爬虫程序。用于采集
指定网站的大量精英文章。垃圾网页信息将被直接丢弃。浏览有价值的文章,自动进行HTM-TXT转换,有需要的可以下载使用。
红叶文章采集
软件功能
(1)本软件采用北大天网的MD5指纹重复算法,对于相似、相同的网页信息,不会重复保存。
(2)采集
信息的含义:[[HT]]代表网页标题,[[HA]]代表文章标题,[[HC]]代表10个加权关键词,[[UR] ]]代表网页链接上的图片,[[TXT]]后面是文字。
(3)蜘蛛性能:本软件开启300线程,保证采集效率。压力测试通过采集100万篇精华文章进行,以普通网友的联网电脑为参考标准,单台电脑可以遍历一天200条,一万个网页,20万条精华文章,5天就能采集
100万条精华文章。
(4) 正式版和免费版的区别在于,正式版允许将采集到的精华文章数据自动保存为ACCESS数据库。
红叶文章采集器
使用注意事项
1、 抓取深度:填0表示抓取深度不限制;填3表示捕获第三层。
2、通用蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“”,如果选择通用蜘蛛模式,会遍历“”中的每一个网页;如果选择了分类蜘蛛模式,则只会遍历每个网页。
3、按钮“从MDB导入”:从TASK.MDB批量导入URL条目。
4、 本软件采集
的原则是不跨站。例如,如果给定的条目是“”,则只会在百度站点内捕获。
5、 本软件在采集过程中,偶尔会弹出一个或几个“错误对话框”。请忽略它们。如果关闭“错误对话框”,采集软件就会挂掉。如果软件挂了,之前采集
的信息不会丢失。再次启动软件进行采集时,之前采集的信息将不再采集,可以实现良好的增量采集。
6、用户如何选择采集
的主题:比如你想采集
“股票”文章,你只需要将那些“股票”网站作为URL入口。
PC正式版
安卓官方手机版
IOS官方手机版