【知识点】红叶文章采集器操作方法软件采集软件的区别
优采云 发布时间: 2021-08-07 21:15
【知识点】红叶文章采集器操作方法软件采集软件的区别
<IMG border=0 alt=红叶文章采集器 src="/uploadfiles/2013-11/20131127090456801.jpg">
鸿业文章采集器是一款非常强大的文章采集软件。通过这个软件,采集可以被网站文章指定,它可以自动去除广告和垃圾部分,保留精华。本软件采用300线程操作模式,采集效率很高,一台电脑平均每天可以采集20万篇精面文章,非常实用。
鸿业文章采集器操作方法:
(1)使用前一定要保证自己的电脑可以联网,防火墙没有屏蔽软件。
(2)Run SETUP.EXE 和 setup2.exe 安装操作系统 system32 支持库。
(3)运行spider.exe,输入URL入口,先点击“手动添加”按钮,再点击“开始”按钮,采集就会开始执行。
鸿业文章采集器注意事项
(1)Grab Depth:填0表示不限制爬行深度;填3表示抓到第三层。
(2)通用蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“”,如果选择通用蜘蛛模式,则会遍历“”中的每一个网页;如果分类蜘蛛模式被选中,只有"""里面的每一页。
(3) 按钮“从 MDB 导入”:从 TASK.MDB 批量导入 URL 条目。
(4)本软件采集的原则是不跨站。比如入口为“”,只会在百度站内爬取。
(5)本软件采集在此过程中,偶尔会弹出一个或几个“错误对话框”,请忽略。如果关闭“错误对话框”,采集软件将挂起。
(6)用户如何选择采集主题:比如你想采集“股票”文章,你只需要将那些“股票”网站作为URL条目。
鸿业文章采集器软件特点:
(1)本软件采用北大天网的MD5指纹重复算法,对于相似、相同的网页信息,不会重复存储。
(2)采集信息含义:[[HT]]代表页面标题,[[HA]]代表文章title,[[HC]]代表10个加权关键词,[[UR] ] 表示网页图片的链接,[[TXT]] 后面的文字。
(3)正式版和免费版的区别在于,正式版允许采集的ssence文章数据自动保存为ACCESS数据库。