网页文章采集工具(WEB基础高性能网页爬虫文章采集器使用注意事项(组图) )

优采云发布时间: 2021-09-09 00:03

　　网页文章采集工具(WEB基础高性能网页爬虫文章采集器使用注意事项(组图)

)

　　基于WEB的高性能网络爬虫文章采集器是一个通用的网页采集爬虫。无需配置模板，你可以采集世界上任何一个网站的全站精华文章。基于WEB的高性能网络爬虫文章采集器属于网络蜘蛛爬虫程序。用于指定网站采集大量力量文章，直接丢弃里面的垃圾网页信息，只保存有阅读价值的信息和浏览价值文章的精华，自动进行HTM- TXT转换，提取标题、正文图片、正文等信息。

　　基于Web的高性能网络爬虫文章采集器具有以下特点：

　　1、采用北大天网的MD5指纹重复算法。对于相似相同的网页信息，直接丢弃，采集不再重复。

　　2、采集信息含义：[[HT]]表示网页标题[TITLE]，[[HA]]表示文章title[H1]，[[HC]]表示出现在这个文章频率TOP10的前10个加权关键词，[[UR]]代表网页中文字图片的链接，[[TXT]]之后的文字。

　　3、Spider Performance：本软件开启300个线程，保证采集效率。压力测试由采集100万979文章进行，以普通网民的联网电脑为参考标准，单台电脑一天可以遍历200万个网页，采集20万力量文章，100万精华文章只需要5天就可以完成采集。

　　4、正式版与免费版的区别在于，正式版允许采集的精华文章数据自动保存为ACCESS数据库，而免费版不能将数据保存到数据库。

　　基于WEB的高性能网络爬虫文章采集器操作步骤：

　　1、使用前，请确保您的电脑可以连接网络，并且防火墙没有屏蔽该软件。

　　2、Run SETUP.EXE 和 setup2.exe 安装操作系统 system32 支持库。

　　3、运行spider.exe，输入URL入口，先点击“手动添加”按钮，再点击“开始”按钮，采集就会开始执行。

　　基于WEB的高性能网络爬虫文章采集器使用注意事项：

　　1、Grab Depth：填0表示不限制抓取深度；填3表示捕获第三层。

　　2、通用蜘蛛模式和分类蜘蛛模式的区别：假设URL入口为“”，如果选择通用蜘蛛模式，则会遍历“”中的每一个网页；如果选择了分类蜘蛛模式，只会遍历“”里面的每个网页。

　　3、按钮“从MDB导入”：从TASK.MDB批量导入URL条目。

　　4、本软件采集的原则是不越站。例如，如果给定的条目是“”，则只会在百度网站内部进行抓取。

　　5、这个软件采集在这个过程中可能偶尔会弹出一个或几个“错误对话框”。请忽略它们。如果关闭“错误对话框”，采集软件就会挂断。如果软件挂了，之前的采集信息不会丢失。当软件再次启动执行采集时，已经采集的信息将不再是采集，可以很好的实现采集的增量。

　　6、用户如何选择采集subjects：例如，如果你想采集“股票”文章，你只需要将那些“股票”网站作为URL条目。

0

2021-09-09

网页文章采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页文章采集工具(WEB基础高性能网页爬虫文章采集器使用注意事项(组图) )

0 个评论

发起人

AI时代内容工厂

网页文章采集工具(WEB基础高性能网页爬虫文章采集器使用注意事项(组图) )

0 个评论

发起人

相关问题