自动采集器怎么用( 大多数网友都想要知道的相关信息,你知道吗?)
优采云 发布时间: 2021-09-19 14:09自动采集器怎么用(
大多数网友都想要知道的相关信息,你知道吗?)
最近,如何教优采云采集器如何定制的问题引起了许多网友的关注。大多数网民想知道如何教优采云采集器如何定制的具体情况。然后,小编还在互联网上进行了一系列关于如何教优采云采集器如何定制的信息,接下来,让我们与大家分享小编采集的关于如何教你优采云采集器如何定制如何使用它的信息(以下内容为非小编在网络上撰写,如有侵权请联系站长删除)
第一步
首先,启动并登录您的优采云采集器,进入主界面,单击“新建”下的“新建任务组”以创建新组
单击“确定”创建一个新组
步骤2
创建组后,单击“新建”下的“自定义任务”按钮,系统将弹出此界面
我们可以找到我们想爬的网页的链接。在这里,小编去京东搜索手机。当搜索结果出来时,我们可以复制链接
将我们复制的链接粘贴到“网站”列中,将任务组更改为以前创建的组,然后单击“保存设置”
步骤3
保存设置后,跳转到爬网界面,软件会自动启动在网页中识别要爬网的部件,相应的等待时间根据个人机器的网络速度不同而不同
经过识别,我们可以看到有很多数据,包括很多无用的数据需要消除
将光标移到表格字段上,将出现两个图标。笔图标用于更改字段名称,垃圾桶用于删除此字段
我们可以自由删除和更改字段名。此处仅保留上图中的字段
步骤4
设置字段后,我们将注意力转向上图中的小框。第一个框不是可选的,我们直接忽略它
采集之前的滚动页面加载了更多的数据,因为很多网站现在使用动态页面。加载时一些内容不会显示,但只有在我们下拉时才会逐渐显示,此功能是为了防止出现这种情况
翻页和采集多页数据:设置为抓取多页,取消选中并仅抓取当前页
单击列表中的XXX和下一页的采集:此功能允许我们对子页中的内容进行爬网
检查前两项并单击generate采集settings,而不是深入爬行
单击生成以开始保存或查看。单击此处保存以开始采集
步骤5
到达这个界面后,我们可以看到一个详细的过程,内部循环列表就是在这个页面中爬网的内容
我们点击外部循环的设置按钮
展开exit循环设置并检查循环执行时间。这里我们只进行爬升
拿3页
从K11开始@
采集finish,单击导出
此外,如果您抓取的页面中存在重复数据,软件还会根据您的情况直接提示您选择保留或删除
导出模式
保存导出文件的位置
保存完整
查看数据
郑重声明:本文版权归原作者所有。转载文章仅用于传播更多信息。如果作者信息标记错误,请与我们联系,在第一时间修改或删除。谢谢