插入关键字 文章采集器(自定义采集模式中文件导入大批量网址、批量生成的功能)
优采云 发布时间: 2021-12-10 05:01插入关键字 文章采集器(自定义采集模式中文件导入大批量网址、批量生成的功能)
本文介绍了如何在自定义采集模式下批量导入文件、批量生成URL以及在关联任务中导入URL。
采集数据的时候,很多用户都会遇到这种情况:
优采云 通过自定义采集 URL输入的升级优化,有效解决了上述问题,主要有以下三个功能。
1、文件导入大量网址
目前手动输入支持的网址数量有限。如果URL数量比较多,我们可以直接从本地文件批量导入URL,保存,然后配置规则。
具体操作如下:
在自定义采集主界面,选择“从文件导入”,然后选择一个已有的URL文件进行大量导入
如下图,导入后可以预览前100个网址。
使用条件:
1、支持cxv、xls、xlsx、txt文件格式
2、支持100w以内的URL,超过的自动删除
2、批量生成URL
当多个页面需要同时采集在同一个网站中时,我们可以使用该功能批量生成URL,可以节省大量翻页或重复搜索的时间。只要URL满足条件,就可以通过设置逻辑自动生成,然后利用云端采集拆分原理采集任务,大大提高采集@的效率>.
如何使用URL批量生成功能?
同样在自定义模式进入界面,选择“批量生成”
我们以京东的网页为例:
这是京东iphone的第三页网址为关键词。我们可以按照这种格式替换关键词,生成多个产品网址,
先用鼠标选中需要设置的关键词,然后点击添加参数
点击后,在弹出的窗口中可以看到有4种可以编辑和更改的参数:
数字变化:可设置从某个数字开始,每次递增或递减X位,设置总数,设置零填充
字母变化:从一个字母到一个字母
时间变化:可设置时间段的变化
自定义列表:您可以将一些必需的 关键词 作为 URL 参数的一部分
自定义列表
因为本例设置为关键词,所以参数类型选择“自定义列表”,填写需要采集的关键词参数,如电脑、手机、鼠标,然后点击行。
数字化变革
同理,选择页码,点击添加参数,设置页码相关参数。这里参数类型选择数量变化,然后观察页面URL的变化来设置具体的参数配置。如果我们需要从第一页采集开始,起始值为1;差为1,每个action递增为1。如果需要采集11页,则结束值为11,项数从第1页到第11页,共11项。
设置好参数后,可以预览生成的URL。如下所示
在京东的这个例子中,只需要设置这两个参数。我们来看看另外两个。
信改
同上,字母变化是根据变化规则设置从a到某个字母
时间的变化
如上图,选择合适的时间格式,然后设置开始和结束时间。
注意:
支持批量生成100W以内的URL,超过100W只生成100W。
批量生成的前100个URL保存在本地并显示在界面上;> 100 个 URL 存储在云中,不显示在界面上。当本地采集或云端采集时,直接调用存储在云端的URL 采集数据。
如果复制此规则,则复制的规则将仅收录前 100 个 URL,并且仅 采集 前 100 个 URL 的数据。
3、链接任务导入地址
还有一种导入URL的方式,可以选择其他任务采集直接导入URL关联采集。比如一个任务同时是采集列表页和详情页,就没有办法用云采集来拆分。如果使用关联采集功能,可以把这个任务变成两个任务:A任务采集列表信息,B任务采集详细信息,两个任务都可以在云端拆分, 采集 效率提升不少(注意如果采集 网站 列表页进入详情页时URL没有改变,所以不能使用该方法)
具体操作如下:
在自定义模式条目中选择“从任务导入”
我们将导入的任务称为“源任务”,将 URL 导入后新配置的任务称为“跟随任务”
然后使用下拉箭头选择采集的任务和字段,即可完整导入源任务采集的URL。
注意:导入时必须保证源任务有云端数据。
规则配置完成后,保存启动时可以选择“按照启动设置”采集
然后你可以从弹窗中选择4种不同的启动方式来满足不同的采集场景,
源任务需要一定的数据,follow task可以采集获取数据,所以可以根据采集的情况选择以下4种follow task启动方式。
您也可以在任务列表中设置跟随开始
注意:follow 任务不能设置为定时启动,只能由源任务触发。
启动采集时,如果选择“Full URL 采集”,优采云将采集为任务导入的所有URL;如果选择“仅采集预览网址”,优采云将采集此任务最多100个预览网址
温馨提示:只有终极版(上)包的用户才支持关联任务的导入。去升级旗舰版