红叶3软件特点及使用注意(-软件)

优采云 发布时间: 2021-06-04 18:02

  红叶3软件特点及使用注意(-软件)

  鸿业文章采集

  3 软件特点 本软件全名为Hongye文章采集器,英文名称为Fast_Spider。它属于蜘蛛爬虫程序。用于指定网站采集大数量精华文章,会直接丢弃垃圾网页信息,只保存阅读价值和浏览价值文章的精华,并自动进行HTM-TXT转换。本软件为绿色软件,解压后即可使用。本软件特点如下:(1)本软件采用北大天网的MD5指纹重复算法,对于相似、相同的网页信息,不会重复保存。(2)采集信息含义: [[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个加权关键词,[[UR]]表示网页中的图片链接,[[TXT]]如下(3)蜘蛛性能:本软件开启300个线程,保证采集效率。压力测试由采集100万979文章进行,普通网友上网电脑为作为参考标准,单台电脑可以遍历200万个网页,采集20万979文章,100万个essence文章只需5天就可以完成采集。(4)正式版和免费版区别在于:正式版允许采集文章数据的精华自动保存为ACCESS数据库,购买正式版请联系QQ(970093569). 1 操作步骤(1)使用前,必须确保您的电脑可以连接网络,防火墙不能拦截该软件。(2)运行SETUP.EXE和setup2.exe安装操作系统系统system32支持库。(3)运行spider.exe,输入URL入口,先点击“手动添加”按钮,再点击“开始”按钮启动采集。2使用注意事项(1)抓取深度:填0表示不限制抓取深度;填3表示抓取第三层。(2)Universal蜘蛛模式与分类蜘蛛模式的区别:假设URL入口为“” ,如果选择通用蜘蛛模式,“”中的每个网页都会被遍历;如果选择分类蜘蛛模式,“”中的每个网页都会被遍历。(3)按钮“从MDB导入”:URL入口为批量从TASK.MDB导入。(4)本软件采集 原则是不跨站,例如给出的入口是“”,只在百度抓取wi精简网站。 (5)本软件采集在这个过程中,偶尔会弹出一个或几个“错误对话框”,请忽略。如果关闭“错误对话框”,采集软件会挂掉(6)用户如何选择采集subjects:例如,如果你想采集“股票”文章,你只需要使用那些“股票”网站作为URL条目。

  立即下载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线