网页文章采集工具(WEB基础高性能网页爬虫文章采集器使用注意事项(组图) )
优采云 发布时间: 2021-09-09 00:03网页文章采集工具(WEB基础高性能网页爬虫文章采集器使用注意事项(组图)
)
基于WEB的高性能网络爬虫文章采集器是一个通用的网页采集爬虫。无需配置模板,你可以采集世界上任何一个网站的全站精华文章。基于WEB的高性能网络爬虫文章采集器属于网络蜘蛛爬虫程序。用于指定网站采集大量力量文章,直接丢弃里面的垃圾网页信息,只保存有阅读价值的信息和浏览价值文章的精华,自动进行HTM- TXT转换,提取标题、正文图片、正文等信息。
基于Web的高性能网络爬虫文章采集器具有以下特点:
1、采用北大天网的MD5指纹重复算法。对于相似相同的网页信息,直接丢弃,采集不再重复。
2、采集信息含义:[[HT]]表示网页标题[TITLE],[[HA]]表示文章title[H1],[[HC]]表示出现在这个文章频率TOP10的前10个加权关键词,[[UR]]代表网页中文字图片的链接,[[TXT]]之后的文字。
3、Spider Performance:本软件开启300个线程,保证采集效率。压力测试由采集100万979文章进行,以普通网民的联网电脑为参考标准,单台电脑一天可以遍历200万个网页,采集20万力量文章,100万精华文章只需要5天就可以完成采集。
4、正式版与免费版的区别在于,正式版允许采集的精华文章数据自动保存为ACCESS数据库,而免费版不能将数据保存到数据库。
基于WEB的高性能网络爬虫文章采集器操作步骤:
1、使用前,请确保您的电脑可以连接网络,并且防火墙没有屏蔽该软件。
2、Run SETUP.EXE 和 setup2.exe 安装操作系统 system32 支持库。
3、运行spider.exe,输入URL入口,先点击“手动添加”按钮,再点击“开始”按钮,采集就会开始执行。
基于WEB的高性能网络爬虫文章采集器使用注意事项:
1、Grab Depth:填0表示不限制抓取深度;填3表示捕获第三层。
2、通用蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“”,如果选择通用蜘蛛模式,则会遍历“”中的每一个网页;如果选择了分类蜘蛛模式,只会遍历“”里面的每个网页。
3、按钮“从MDB导入”:从TASK.MDB批量导入URL条目。
4、本软件采集的原则是不越站。例如,如果给定的条目是“”,则只会在百度网站内部进行抓取。
5、这个软件采集在这个过程中可能偶尔会弹出一个或几个“错误对话框”。请忽略它们。如果关闭“错误对话框”,采集软件就会挂断。如果软件挂了,之前的采集信息不会丢失。当软件再次启动执行采集时,已经采集的信息将不再是采集,可以很好的实现采集的增量。
6、用户如何选择采集subjects:例如,如果你想采集“股票”文章,你只需要将那些“股票”网站作为URL条目。