网站文章采集平台(红叶文章采集器软件特色(1)_北大MD5指纹排重算法)

优采云 发布时间: 2021-08-29 18:14

  网站文章采集平台(红叶文章采集器软件特色(1)_北大MD5指纹排重算法)

  鸿业文章采集器是一个超级强大的网站文章采集器,英文名是Fast_Spider,属于蜘蛛爬虫程序,用于指定网站采集海量979文章,垃圾网页信息将被直接丢弃,只保存阅读价值和浏览价值文章的本质,并自动进行HTM-TXT转换。如有需要,请下载并使用。

  鸿业文章采集器软件特点

  (1)本软件采用北大天网的MD5指纹重复算法,对于相似、相同的网页信息,不会重复存储。

  (2)采集信息含义:[[HT]]代表网页标题,[[HA]]代表文章title,[[HC]]代表10个加权关键词,[[UR] ] 表示网页图片的链接,[[TXT]] 后面的文字。

  (3)蜘蛛性能:本软件开启300个线程,保证采集效率。通过采集100万979文章进行压力测试,以普通网友的联网电脑为参考标准,单台电脑可以遍历200万个网页,采集20万979文章,100万个essence文章只需5天就可以完成采集。

  (4)正式版和免费版的区别在于,正式版允许采集的ssence文章数据自动保存为ACCESS数据库。

  鸿业文章采集器使用说明

  1、Grab Depth:填0表示不限制抓取深度;填3表示捕获第三层。

  2、通用蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“”,如果选择通用蜘蛛模式,会遍历“”中的每一个网页;如果选择了分类蜘蛛模式,只会遍历“”里面的每个网页。

  3、按钮“从MDB导入”:从TASK.MDB批量导入URL条目。

  4、本软件采集的原则是不跨站。例如,如果给定的条目是“”,则只会在百度网站内部进行抓取。

  5、这个软件采集偶尔会弹出一个或几个“错误对话框”。请忽略它们。如果关闭“错误对话框”,采集 软件将挂起。如果软件挂了,之前的采集信息不会丢失。当软件再次启动执行采集时,已经采集的信息将不再是采集,可以很好的实现采集的增量。

  6、用户如何选择采集subjects:例如,如果你想采集“股票”文章,你只需要将那些“股票”网站作为URL条目。

  PC正式版

  安卓官方手机版

  IOS官方手机版

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线