免费的:红叶文章采集器3.6 免费版

优采云 发布时间: 2020-12-13 10:12

  Momiji文章采集器3.6免费版

  更新时间:2015-10-25

  Hongye文章采集器是超级强大的[k14]文章采集器,英文名称Fast_Spider,属于蜘蛛采集器程序,用于指定网站采集质量本质文章,将直接丢弃垃圾邮件网页信息,仅保留阅读价值和浏览价值的本质文章,自动执行HTM-TXT转换,并在必要时下载和使用。 Hongye文章采集器软件功能(1)该软件使用北京大学天网的MD5指纹重新排列算法。对于相似和相同的网页信息,将不会重复存储。[2)采集信息含义:[[HT]]代表网页徽标

  Hongye文章采集器是超级强大的[k14]文章采集器,英文名称Fast_Spider,属于蜘蛛采集器程序,用于指定网站采集质量本质文章,将直接丢弃垃圾邮件网页信息,仅保留阅读价值和浏览价值的本质文章,自动执行HTM-TXT转换,并在必要时下载和使用。

  Hongye文章采集器软件功能

  (1)该软件使用北京大学天网的MD5指纹重复算法。对于相似和相同的网页信息,将不会重复保存。

  (2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个加权关键字,[[UR]]表示链接到网页上的图片以及[[TXT]]之后的文字。

  (3)Spider性能:该软件打开300条线程以确保采集的效率。通过采集一百万个精华文章进行压力测试,并使用普通网民的互联网计算机作为参考标准,单个计算机可以在一天之内遍历200万个网页,采集 200,000个要素文章,在短短5天之内就可以遍历100万个要素文章。

  (4)正式版和免费版之间的区别在于,正式版允许采集本质文章数据自动保存为ACCESS数据库。

  Hongye文章采集器使用说明

  1、抓取深度:填写0表示捕获深度不受限制;填写3表示已捕获第三层。

  2、通用蜘蛛模式和分类蜘蛛模式之间的区别:假设URL条目为“”,如果选择了通用蜘蛛模式,则将遍历“”中的每个网页;如果选择了分类蜘蛛模式,则将遍历“每个”内部的网页。

  3、按钮“从MDB导入”:URL条目是从TASK.MDB批量导入的。

  4、此软件采集的原理是不越站。例如,如果入口为“”,则只能在百度站点内进行爬网。

  5、在此软件采集的过程中,偶尔会弹出一个或几个“错误对话框”。请忽略它。如果关闭“错误对话框”,则采集软件将挂起。如果软件挂起,则先前的采集信息将不会丢失。当再次启动软件执行采集时,已被重新输入采集的信息将不会被重新输入采集,并且可以实现良好的增量采集。

  6、用户如何选择采集主题:例如,如果要采集“股票” 文章,则只需使用这些“股票”网站作为URL条目。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线