web基础蜘蛛网页文章采集器.2.zip

优采云发布时间: 2021-08-01 07:31

　　基于网络的蜘蛛网页文章采集器v3.2.zip

　　基于Web的蜘蛛网页文章采集器，英文名Fast_Spider，属于蜘蛛爬虫程序，用于指定网站采集大量力量文章，会直接丢弃其中的垃圾信息，只保存阅读值和浏览值文章的本质，并自动进行HTM-TXT转换。本软件为绿色软件，解压后即可使用。基于网络的蜘蛛网页文章采集器具有以下特点：（1)本软件采用北大天网的MD5指纹重排算法，对于相似和相同的网页信息，不会存储（2)采集信息含义：[[HT]]代表网页标题，[[HA]]代表文章title，[[HC]]代表10个加权关键词，[[UR]]代表网页中的图片链接，[［TXT]］之后是正文。（3)Spider Performance：软件开启300个线程，保证采集效率。压力测试由采集100进行万979文章，以普通网民的联网电脑为参考标准，一台电脑可以遍历200万个网页，采集20万979文章，100万精华文章 5天完成采集。（4)正式版和免费版的区别在于：正式版允许采集文章的精华自动保存为ACCESS da表。基于Web的蜘蛛网页文章采集器操作步骤（1)使用前，必须确保您的电脑可以上网并且有防火墙，请勿屏蔽此软件。（2)运行SETUP.EXE和setup2.exe安装操作系统system32支持库。（3)运行spider.exe，输入URL入口，先点击“手动添加”按钮，然后点击“开始”按钮开始执行采集.基于Web的蜘蛛网页文章采集器使用注意（1)Grab Depth：填0表示不限制爬取深度；填3表示抓到第三层。（2)万能蜘蛛模式和分类蜘蛛模式的区别：假设URL入口为“”，如果选择万能蜘蛛模式，会遍历“”中的每一个网页；如果选择分类蜘蛛模式，则只有“”会被遍历（3)按钮“从MDB导入”：URL条目是批量从TASK.MDB导入的。（4)本软件采集原则是不跨s站，例如，条目是“”，只需在百度网站内抓取即可。（5)本软件采集在此过程中，偶尔会弹出一个或几个“错误对话框”，请忽略。如果关闭“错误对话框”，采集软件会挂掉。（ 6)用户如何选择采集subjects：例如，如果你想采集“股票”文章，你只需要将那些“股票”网站作为URL条目。

　　立即下载

0

2021-08-01

免规则采集器列表算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

web基础蜘蛛网页文章采集器.2.zip

0 个评论

发起人

AI时代内容工厂

web基础蜘蛛网页文章采集器.2.zip

0 个评论

发起人

相关问题