免费的文章采集工具(红叶文章采集器软件特色(1)_北大MD5指纹排重算法)

优采云 发布时间: 2021-12-27 18:20

  免费的文章采集工具(红叶文章采集器软件特色(1)_北大MD5指纹排重算法)

  红叶文章采集

是一个超级强大的网站文章采集器

。英文名称为Fast_Spider,属于蜘蛛爬虫程序。用于采集

指定网站的大量精英文章。垃圾网页信息将被直接丢弃。浏览有价值的文章,自动进行HTM-TXT转换,有需要的可以下载使用。

  红叶文章采集

软件功能

  (1)本软件采用北大天网的MD5指纹重复算法,对于相似、相同的网页信息,不会重复保存。

  (2)采集

信息的含义:[[HT]]代表网页标题,[[HA]]代表文章标题,[[HC]]代表10个加权关键词,[[UR] ]]代表网页链接上的图片,[[TXT]]后面是文字。

  (3)蜘蛛性能:本软件开启300线程,保证采集效率。压力测试通过采集100万篇精华文章进行,以普通网友的联网电脑为参考标准,单台电脑可以遍历一天200条,一万个网页,20万条精华文章,5天就能采集

100万条精华文章。

  (4) 正式版和免费版的区别在于,正式版允许将采集到的精华文章数据自动保存为ACCESS数据库。

  红叶文章采集器

使用注意事项

  1、 抓取深度:填0表示抓取深度不限制;填3表示捕获第三层。

  2、通用蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“”,如果选择通用蜘蛛模式,会遍历“”中的每一个网页;如果选择了分类蜘蛛模式,则只会遍历每个网页。

  3、按钮“从MDB导入”:从TASK.MDB批量导入URL条目。

  4、 本软件采集

的原则是不跨站。例如,如果给定的条目是“”,则只会在百度站点内捕获。

  5、 本软件在采集过程中,偶尔会弹出一个或几个“错误对话框”。请忽略它们。如果关闭“错误对话框”,采集软件就会挂掉。如果软件挂了,之前采集

的信息不会丢失。再次启动软件进行采集时,之前采集的信息将不再采集,可以实现良好的增量采集。

  6、用户如何选择采集

的主题:比如你想采集

“股票”文章,你只需要将那些“股票”网站作为URL入口。

  PC正式版

  安卓官方手机版

  IOS官方手机版

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线