web基础蜘蛛网页文章采集器.2.zip
优采云 发布时间: 2021-08-01 07:31web基础蜘蛛网页文章采集器.2.zip
基于网络的蜘蛛网页文章采集器v3.2.zip
基于Web的蜘蛛网页文章采集器,英文名Fast_Spider,属于蜘蛛爬虫程序,用于指定网站采集大量力量文章,会直接丢弃其中的垃圾信息,只保存阅读值和浏览值文章的本质,并自动进行HTM-TXT转换。本软件为绿色软件,解压后即可使用。基于网络的蜘蛛网页文章采集器具有以下特点:(1)本软件采用北大天网的MD5指纹重排算法,对于相似和相同的网页信息,不会存储(2)采集信息含义:[[HT]]代表网页标题,[[HA]]代表文章title,[[HC]]代表10个加权关键词,[[UR]]代表网页中的图片链接,[[TXT]]之后是正文。(3)Spider Performance:软件开启300个线程,保证采集效率。压力测试由采集100进行万979文章,以普通网民的联网电脑为参考标准,一台电脑可以遍历200万个网页,采集20万979文章,100万精华文章 5天完成采集。(4)正式版和免费版的区别在于:正式版允许采集文章的精华自动保存为ACCESS da表。基于Web的蜘蛛网页文章采集器操作步骤(1)使用前,必须确保您的电脑可以上网并且有防火墙,请勿屏蔽此软件。(2)运行SETUP.EXE和setup2.exe安装操作系统system32支持库。(3)运行spider.exe,输入URL入口,先点击“手动添加”按钮,然后点击“开始”按钮开始执行采集.基于Web的蜘蛛网页文章采集器使用注意(1)Grab Depth:填0表示不限制爬取深度;填3表示抓到第三层。(2)万能蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“”,如果选择万能蜘蛛模式,会遍历“”中的每一个网页;如果选择分类蜘蛛模式,则只有“”会被遍历(3)按钮“从MDB导入”:URL条目是批量从TASK.MDB导入的。(4)本软件采集原则是不跨s站,例如,条目是“”,只需在百度网站内抓取即可。 (5)本软件采集在此过程中,偶尔会弹出一个或几个“错误对话框”,请忽略。如果关闭“错误对话框”,采集软件会挂掉。( 6)用户如何选择采集subjects:例如,如果你想采集“股票”文章,你只需要将那些“股票”网站作为URL条目。
立即下载