自定义采集模式中文件导入大批量网址、批量生成的功能
优采云 发布时间: 2021-08-21 00:07自定义采集模式中文件导入大批量网址、批量生成的功能
本文介绍了如何在自定义采集模式下,从文件中导入大量网址,批量生成网址,以及在关联任务中导入网址。
采集data时,很多用户都会遇到这种情况:
优采云通过升级优化自定义采集 URL的输入,有效解决了上述问题,主要有以下三个功能。
1、File 导入大量网址
目前手动输入支持的网址数量有限。如果有大量的URL,我们可以直接从本地文件批量导入URL,保存,然后配置规则。
具体操作如下:
自定义采集主界面,选择“从文件导入”,然后选择一个已有的URL文件进行批量导入
如下图,导入后可以预览前100个网址。
使用条件:
1、支持cxv、xls、xlsx、txt文件格式
2、支持100w以内的url,超过100w的会自动删除
2、Bulk URL 生成
当多个页面需要同时在同一个网站中采集时,我们可以使用该功能批量生成网址,可以节省大量翻页或重复搜索的时间。只要URL满足条件,就可以设置定义的逻辑自动生成,然后可以使用云端采集拆分原理采集任务,大大提高采集的效率。
如何使用URL批量生成功能?
同样在自定义模式进入界面,选择“批量生成”
以京东的网页为例:
这是京东iphone的第三页网址为关键词,我们可以按照这个格式替换关键词生成多个产品的网址,
先用鼠标选中需要设置的关键词,然后点击添加参数
点击后,在弹出的窗口中可以看到有4种可以编辑和更改的参数:
数字变化:可设置从某个数字开始,每次递增或递减X位,设置总数,设置零填充。
字母变化:从字母到字母
时间变化:可设置时间段变化
自定义列表:你可以把一些你需要的关键词作为URL参数的一部分
自定义列表
由于本例中设置了关键词,所以参数类型选择“自定义列表”,在下框中填写需要采集的关键词参数,如电脑、手机、鼠标,然后点击确定。
数量变化
同理,选择页码,点击添加参数,设置与页码相关的参数。这里,参数类型选择数量变化,然后观察页面URL的变化来设置具体的参数配置。如果我们需要从第一页开始采集,则起始值为1;变化为1,每个action递增为1。如果需要采集11页,则结束值为11,项数从第1页到第11页,共11项。<//p
pimg src='http://www.bazhuayu.com/media/117260/image5.png' alt=''//p
p设置好参数后,可以预览生成的网址。如下图所示/p
pimg src='http://www.bazhuayu.com/media/117261/image6.png' alt=''//p
p在京东这个例子中,只需要设置这两个参数。我们来看看另外两个。/p
p字母变化/p
pimg src='http://www.bazhuayu.com/media/117262/image7.png' alt=''//p
p同上,字母变化是根据变化规律从a设置到某个字母/p
p时间变化/p
pimg src='http://www.bazhuayu.com/media/117263/image8.png' alt=''//p
p如上图,选择合适的时间格式,然后设置开始时间和结束时间。/p
p注意:/p
p可支持批量生成100W以内的URL,超过100W只生成100W。/p
p批量生成的前100个URL保存在本地并显示在界面上; > 100 个 URL 存储在云中,不在界面上显示。使用本地采集或云端采集时,存储直接调用云端的URL采集数据。
如果您复制此规则,则复制的规则将仅收录前 100 个网址和采集前 100 个网址的数据。
3、Linked 任务导入地址
还有另一种导入 URL 的方法。可以从其他任务采集中选择URL直接导入关联采集。例如,如果一个任务同时是采集list 页面和详情页面,则无法通过云采集 进行拆分。如果使用关联采集的功能,可以把这个任务变成两个任务:A任务采集列表信息,B任务采集详细信息,两个任务都可以在云端拆分,采集效率为改进了很多(注意如果采集网站list页面进入详情页,URL不变,不能使用此方法)
具体操作如下:
在自定义模式入口选择“从任务导入”
我们将导入的任务称为“源任务”,导入URL后的新配置称为“跟随任务”
然后使用下拉箭头选择采集tasks和字段,就可以完全导入源任务采集的URL了。
注意:导入时必须保证源任务有云端数据。
规则配置完成后,保存启动采集时可以选择“按照启动设置”
然后你可以从弹窗中选择4种不同的启动方式来满足不同的采集场景,
源任务需要一定的数据,follow task可以采集获取数据,所以可以根据采集的情况选择以下4种follow task启动方式。
您也可以在任务列表中设置关注开始
注意:后续任务不能设置为定时启动,只能由源任务触发。
启动采集时,如果选择“Full URL采集”,优采云会采集任务导入的所有URL;如果选择“Only 采集preview URLs”,优采云 将采集此任务最多 100 个预览 URL
提醒:只有终极版(上)包的用户才支持相关任务的导入。去升级旗舰版