自定义采集模式中文件导入大批量网址、批量生成的功能

优采云 发布时间: 2021-08-21 00:07

  自定义采集模式中文件导入大批量网址、批量生成的功能

  本文介绍了如何在自定义采集模式下,从文件中导入大量网址,批量生成网址,以及在关联任务中导入网址。

  采集data时,很多用户都会遇到这种情况:

  优采云通过升级优化自定义采集 URL的输入,有效解决了上述问题,主要有以下三个功能。

  1、File 导入大量网址

  目前手动输入支持的网址数量有限。如果有大量的URL,我们可以直接从本地文件批量导入URL,保存,然后配置规则。

  具体操作如下:

  自定义采集主界面,选择“从文件导入”,然后选择一个已有的URL文件进行批量导入

  如下图,导入后可以预览前100个网址。

  

  使用条件:

  1、支持cxv、xls、xlsx、txt文件格式

  2、支持100w以内的url,超过100w的会自动删除

  2、Bulk URL 生成

  当多个页面需要同时在同一个网站中采集时,我们可以使用该功能批量生成网址,可以节省大量翻页或重复搜索的时间。只要URL满足条件,就可以设置定义的逻辑自动生成,然后可以使用云端采集拆分原理采集任务,大大提高采集的效率。

  如何使用URL批量生成功能?

  同样在自定义模式进入界面,选择“批量生成”

  

  以京东的网页为例:

  这是京东iphone的第三页网址为关键词,我们可以按照这个格式替换关键词生成多个产品的网址,

  先用鼠标选中需要设置的关键词,然后点击添加参数

  

  点击后,在弹出的窗口中可以看到有4种可以编辑和更改的参数:

  数字变化:可设置从某个数字开始,每次递增或递减X位,设置总数,设置零填充。

  字母变化:从字母到字母

  时间变化:可设置时间段变化

  自定义列表:你可以把一些你需要的关键词作为URL参数的一部分

  自定义列表

  由于本例中设置了关键词,所以参数类型选择“自定义列表”,在下框中填写需要采集的关键词参数,如电脑、手机、鼠标,然后点击确定。

  

  数量变化

  同理,选择页码,点击添加参数,设置与页码相关的参数。这里,参数类型选择数量变化,然后观察页面URL的变化来设置具体的参数配置。如果我们需要从第一页开始采集,则起始值为1;变化为1,每个action递增为1。如果需要采集11页,则结束值为11,项数从第1页到第11页,共11项。<//p

pimg src='http://www.bazhuayu.com/media/117260/image5.png' alt=''//p

p设置好参数后,可以预览生成的网址。如下图所示/p

pimg src='http://www.bazhuayu.com/media/117261/image6.png' alt=''//p

p在京东这个例子中,只需要设置这两个参数。我们来看看另外两个。/p

p字母变化/p

pimg src='http://www.bazhuayu.com/media/117262/image7.png' alt=''//p

p同上,字母变化是根据变化规律从a设置到某个字母/p

p时间变化/p

pimg src='http://www.bazhuayu.com/media/117263/image8.png' alt=''//p

p如上图,选择合适的时间格式,然后设置开始时间和结束时间。/p

p注意:/p

p可支持批量生成100W以内的URL,超过100W只生成100W。/p

p批量生成的前100个URL保存在本地并显示在界面上; > 100 个 URL 存储在云中,不在界面上显示。使用本地采集或云端采集时,存储直接调用云端的URL采集数据。

  如果您复制此规则,则复制的规则将仅收录前 100 个网址和采集前 100 个网址的数据。

  3、Linked 任务导入地址

  还有另一种导入 URL 的方法。可以从其他任务采集中选择URL直接导入关联采集。例如,如果一个任务同时是采集list 页面和详情页面,则无法通过云采集 进行拆分。如果使用关联采集的功能,可以把这个任务变成两个任务:A任务采集列表信息,B任务采集详细信息,两个任务都可以在云端拆分,采集效率为改进了很多(注意如果采集网站list页面进入详情页,URL不变,不能使用此方法)

  具体操作如下:

  在自定义模式入口选择“从任务导入”

  我们将导入的任务称为“源任务”,导入URL后的新配置称为“跟随任务”

  

  然后使用下拉箭头选择采集tasks和字段,就可以完全导入源任务采集的URL了。

  注意:导入时必须保证源任务有云端数据。

  

  规则配置完成后,保存启动采集时可以选择“按照启动设置”

  

  然后你可以从弹窗中选择4种不同的启动方式来满足不同的采集场景,

  源任务需要一定的数据,follow task可以采集获取数据,所以可以根据采集的情况选择以下4种follow task启动方式。

  

  您也可以在任务列表中设置关注开始

  

  注意:后续任务不能设置为定时启动,只能由源任务触发。

  启动采集时,如果选择“Full URL采集”,优采云会采集任务导入的所有URL;如果选择“Only 采集preview URLs”,优采云 将采集此任务最多 100 个预览 URL

  

  提醒:只有终极版(上)包的用户才支持相关任务的导入。去升级旗舰版

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线