最新版:红叶文章采集器 V3.6中文绿色版
优采云 发布时间: 2021-01-07 08:01最新版:红叶文章采集器 V3.6中文绿色版
功能非常强大的网站文章采集器,该软件的全名是Hongye 文章采集器,英文名称是Fast_Spider,属于蜘蛛爬虫程序进程,用于提取很多来自特定网站采集k13]内容的实质,将立即丢弃浪费网页的信息内容,仅存储具有文章使用价值和访问使用价值的本质文章内容,并自动实现HTM -TXT转换。该软件可以作为减轻压力的软件工具来使用!
[软件功能]
(1)该软件使用北京大学天网的MD5指纹识别和重新加权优化算法。对于类似的网页信息内容,不会重复存储。
(2)采集信息内容的含义:[[HT]]表示网页标题,[[HA]]表示新闻标题,[[HC]]表示10个权重值关键词,[[UR]]表示网页中图片的地址,[[TXT]]从现在开始将是文章的文本。
(3)Spider功能:该软件打开300个进程以确保采集的高效率。根据采集百万精华文章的内容,进行了稳定性测试, netizen连接到网络计算机为了参考该规范,每台计算机一天可以解析200万个xml网页和采集200,000个Essential 文章内容,一百万个Essential 文章内容仅需5天即可完成完成采集。
(4)最新版本和绿色版本之间的差异取决于:最新版本允许将采集文章的本质自动存储为ACCESS数据库以进行查询。请与QQ(970093569)。
[操作步骤]
([1)在应用之前,请确保您的计算机可以连接到Internet,并且服务器防火墙不需要阻止此软件。
([2)运行SETUP.EXE和setup2.exe以安装计算机操作系统system32适用的库。
([3)运行spider.exe,输入URL条目,首先单击“ Manpower plus”按钮,再单击“开始”按钮,然后将逐步实施采集。
[常见问题解答]
([1)抓取深度:填入0表示不限制爬行深度;填入3表示已捕获第三层。
(2)通用蜘蛛方法与分类蜘蛛方法之间的区别:假设URL条目为“”,如果选择了通用蜘蛛方法,则将解析xml中的每个网页“”;如果选择“分类蜘蛛”方法,它将仅解析xml“”中的每个网页。
([3)按钮“从MDB导入”:URL条目是从TASK.MDB批量导入的。
([4)该软件采集的标准并不过分。例如,如果给定的条目为“”,则只会在百度网站内部进行爬网。
(5)在此软件采集的整个过程中,有时会弹出一个或多个“不正确的提示框”,如果您关闭了“不正确的提示框”,请忽略它,采集软件将挂起。
([6)用户如何选择采集主题:例如,如果要采集“单个股票” 文章内容,则只需使用这些“单个股票” 网站作为URL条目