不用采集规则就可以采集(爬虫及更低集搜客网络爬虫软件新版本对应教程：V10及 )

优采云发布时间: 2021-09-14 10:00

　　不用采集规则就可以采集(爬虫及更低集搜客网络爬虫软件新版本对应教程：V10及

)

　　支持软件版本：V9及更低版本的Jisuke网络爬虫软件

　　新版本对应教程：V10及更高版本Data Manager-增强型网络爬虫对应教程为“Start Data采集”

　　注意：根据以上提示，请尽量使用最新版本的Data Manager-Enhanced Web Crawler

　　GooSeeker爬虫从V5.6.0版本开始增加了爬虫组功能，支持多爬虫在一台电脑上并发运行。爬虫组和规则制定可以同时运行，但爬虫组只会使用采集调度池中的规则。如果你想自动采集任何规则，只要把它扔进调度池。调度池相当于一个指挥中心。 , 会自动为每个爬虫分配采集任务，所以爬虫组运行、制定规则、调度这三个步骤是必须的，三者没有特定的先后顺序。

　　一、采集Rules

　　首先你得有自己的采集规则，可以自己做，也可以从别人那里下载。具体有以下三种方式：

　　1）自己做规则，选择一个网页作为样本定义采集rules，具体操作请学习gooseeker教程

　　2）直接下载资源库的规则。资源库拥有大量成熟的规则模板，提供微信、微博、电商、新闻、论坛、行业等。网站采集规则模板，可以满足大多数人的数据需求

　　3）找人自定义采集Rules，如果资源库没有你想要的网站规则，可以找集收客定制，或者发布规则奖励任务，找合适的人帮忙你制定规则

　　二、运行爬虫群

　　通过爬虫群实现采集自动化，需要配置爬虫群和调度规则，最后运行爬虫群采集数据。

　　2.1 爬虫组配置

　　配置过程主要解决以下两个问题：

　　1）一台电脑上同时运行了多少个并发爬虫窗口？这由配置的线程数决定。

　　2）DS 在软件启动时打开这些窗口？还是手动打开？这是自启动模式。

　　配置过程的基本操作：

　　选择DS点数机菜单爬虫组->配置，弹出配置窗口，点击添加新建爬虫（DS点数机窗口）。如果要自动弹出爬虫，勾选自动启动，然后点击保存，最后关闭窗口。

　　2.2 启动爬虫群

　　自动启动：如果设置了自启动爬虫，重启DS计数器会自动弹出多个爬虫（DS窗口）。

　　手动启动：如果没有设置自启动爬虫，打开DS计数器爬虫组菜单->启动，会弹出爬虫列表。一一选择确认后，会弹出一个新的DS窗口。

　　三、调度规则

　　每个规则对应一个运行/暂停按钮和一个计划按钮。如果你想自动采集哪个规则，你可以为它设置时间表。可以同时调度多个规则。每增加一个调度规则，必须点击调度按钮进行设置，最终调度池会统一为每个爬虫分配采集任务。

　　3.1 调度

　　1）DS 点击爬虫群菜单->号码机中的调度，进入会员中心的规则管理页面，可以看到你所有的规则。如果你想自动采集哪个规则，点击它的调度按钮。

　　2）然后进入调度页面。如果要转换excel格式，可以查看结果并存入库中。其他设置都是调试好的，不需要修改。我们只需要默认它。最后，点击确定就大功告成了。爬虫会在每轮采集到线索后自动将数据录入数据库。

　　3）调度后，如果要暂停采集***主题，点击运行/暂停按钮，则爬虫群采集当前***主题的采集后会暂停任务。这是因为一个回合的默认线索数是20条，直到采集到线索，爬虫才会停止。如果你想立即停止采集，只需关闭爬虫群即可。

　　4）可以通过设置调度参数来控制采集时间、采集速度、数据存储、翻页、循环增量采集最新数据等。如果您希望抓取更灵活，请根据实际网页情况设置调度参数。有时需要多次测试才能找到合适的参数组合。各个调度参数的含义可以查看教程crontab爬虫调度。

　　注意：通过设置最大允许爬虫数，一个windows账号可以同时运行1-20个DS计数器窗口。请综合考虑采集stability和效率设置合理的爬虫数量和控制规则采集Speed（由调度参数控制：线索间最短等待时间、线索间最长等待时间、延迟抓取时间、滚动速度、滚动次数等）。

　　3.2 激活/添加线索

　　如果规则中有线索等待爬取，爬虫会自动调用规则进行数据采集；如果没有线索等待爬取，如果要爬取采集data，必须先到会员中心爬虫管理->规则管理添加/激活线索。

　　如果你想重复采集***话题下的所有线索，又不想每次都手动激活线索，可以在日程中设置激活线索。请根据您的需要选择激活时间类型、时间和激活方式。（无条件激活是指即使没有采集到所有线索，只要时间到了就会重新激活所有线索；没有剩余线索时激活是指即使时间到了，也必须将所有线索都采集起来在采集所有线索之前激活）

　　四、导出数据，转换格式

　　如果在“排期”中设置了自动存储，数据将由DS号机采集并上传至会员中心数据库。数据采集完成后，进入爬虫管理->规则管理或数据管理，点击导出数据即可得到excel表格的zip压缩包，在历史记录中可以查看导出记录和重复下载。

　　如果没有设置自动存储，进入对应规则的管理页面，点击激活存储，然后将本地电脑中的数据文件打包成zip，然后点击导入数据，选择单个附件中的xml文件或xml文件的压缩包zip，导入成功后即可导出数据。

　　【注意】您可以免费导出10,000条数据。如果超过数量，请在继续导出数据前购买“专业或终极爬虫”或“数据仓库”扩展存储容量，或购买“仓库清理”保存原创数据清理后使用。

　　爬虫swarm模式是本地采集模式。捕获的数据文件仍保存在本地计算机的 DataScraperworks 文件夹中。如果勾选了自动存储，每次采集到线索数量都会自动保存xml文件。打包成zip，一次导入最大20M的zip数据包。如果超过，导入将失败。存储成功后，xml文件会转移到导入的文件夹中。

　　如果没有勾选自动存储，请手动将xml文件打包成zip然后导入数据，每次导入zip数据包最大10M。

　　五、关于爬虫组模式

　　爬虫组模式是在一台电脑上同时开启多个爬虫（即DS计数器窗口）。通过设置更多的爬虫数量和合理的爬取速度，不仅降低了IP被封的风险，还能抓取更多的数据，是一种非常稳定高效的本地采集模式。集成了crontab爬虫调度器、DS计数机主要功能、数据库存储三大功能块，让您自由控制爬虫数量和运行，还有专用数据库高效处理千万级数据。

　　如果您有任何问题，可以或

0

2021-09-14

不用采集规则就可以采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用采集规则就可以采集(爬虫及更低集搜客网络爬虫软件新版本对应教程：V10及 )

0 个评论

发起人

AI时代内容工厂

不用采集规则就可以采集(爬虫及更低集搜客网络爬虫软件新版本对应教程：V10及 )

0 个评论

发起人

相关问题