3软件特点本软件全名为,蜘蛛爬虫类解压即可使用

优采云 发布时间: 2021-08-22 01:00

  3软件特点本软件全名为,蜘蛛爬虫类解压即可使用

  3 软件特点 本软件全称是Hongye文章采集器,英文名称是Fast_Spider。它属于蜘蛛爬虫程序。用于指定网站采集大数量精华文章,会直接丢弃垃圾网页信息,只保存具有阅读价值和浏览价值的精华文章,并自动进行HTM-TXT转换。本软件为绿色软件,解压后即可使用。本软件特点如下:(1)本软件采用北大的MD5指纹重复算法,对于相似、相同的网页信息,不会重复保存。(2)采集信息含义:[ [HT]]表示网页标题,[[HA]]表示文章title,[[HC]]表示10个加权关键词,[[UR]]表示网页中的图片链接,[[TXT]]以下是(3)蜘蛛性能:本软件开启300个线程,保证采集效率。压力测试由采集100万979文章进行,普通网友的联网电脑使用作为参考标准,单台电脑可以遍历200万个网页,采集20万979文章,100万个essence文章只需5天就可以完成采集。(4)正式版和免费版本区别在于:正式版允许采集文章数据的精华自动保存为ACCESS数据库,购买正式版请联系QQ(97009356) 9)。 1 操作步骤(1)使用前,必须确保您的电脑可以连接网络,防火墙不能屏蔽此软件。(2)运行SETUP.EXE和setup2.exe安装操作系统系统system32支持库。

  (3)运行spider.exe,输入URL入口,先点击“手动添加”按钮,再点击“开始”按钮,采集就会开始执行。2 使用注意事项(1)Grab Depth:填0表示不限制爬取深度;填3表示抓到第三层。(2)一般蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“” ,如果选择通用蜘蛛模式,则会遍历“”Every网页;如果选择类别蜘蛛模式,则只会遍历“”中的每个网页。(3)按钮“从MDB导入”:URL入口为从TASK.MDB批量导入。(4)本软件采集的原则是不越站。例如,如果给出的条目是“”,它只会在百度网站内部被抓取。(5)本软件采集在这个过程中,偶尔会弹出一个或几个“错误对话框”,请忽略,如果关闭“错误对话框”,采集软件会挂掉。(6)用户如何选择采集theme:对于e例如,如果您想要采集“股票类”文章,只需使用那些“股票”站点作为 URL 条目。 (3)运行spider.exe,输入URL入口,先点击“手动添加”按钮,再点击“开始”按钮,采集就会开始执行。2使用注意事项(1)Grab depth:填0表示不限制爬取深度;填3表示抓到第三层。(2)一般蜘蛛模式和分类蜘蛛模式的区别:假设URL入口为“如果选择通用蜘蛛模式,则遍历“”中的每个网页;如果选择分类蜘蛛模式,则只遍历“”中的每个网页。

  (3)按钮“从MDB导入”:URL条目是批量从TASK.MDB导入的。(4)本软件采集原则是不跨站,例如条目是“”,只能在百度站内抓取。(5)本软件采集在此过程中,偶尔会弹出一个或几个“错误对话框”,请忽略。如果关闭“错误对话框”, 采集software 会挂掉。(6)用户如何选择采集主题:比如你想采集“股票”文章,你只需要把那些“股票”网站作为URL条目。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线