优采云中采集图片有以下几大步和注意事项

优采云 发布时间: 2021-06-15 23:20

  优采云中采集图片有以下几大步和注意事项

  1、图片采集

  优采云、采集图片有以下大步骤

  1)先采集网页图片链接网址

  2)通过优采云提供的图片批量下载工具将URL转换为图片

  2、常见应用场景

  1)非地震流网站纯图片采集

  2)传说流网站纯图片采集

  此类瀑布网站的采集需要按照以下步骤设置采集规则:

  ①点击采集rule,打开网页步骤的高级选项;

  ②检查页面加载后向下滚动;

  ③ 填写滚动条数和每滚动条间隔;

  ④ 滚动方式设置为:直接滚动到底部;

  完成上述规则设置后,将采集设置为页面上图片的URL。

  注意:滚动次数和滚动间隔应根据网页的加载情况设置。如果向下滚动,页面信息会加载缓慢。建议将滚动间隔设置的大一些。滚动的次数应该根据滚动多少次可以加载我们需要的所有数据而定。建议多加一两次准备。滚动的方式取决于是网页一滚动到最后就可以顺利加载所有数据,还是逐个滚动。一般来说,一屏滚动是有效的,但比较耗时。滚动屏幕的大小取决于您的屏幕大小。 Cloud 采集 默认为全屏。

  3)文章图文采集

  需要下载文章采集中的所有文字和图片,一般有两种方式

  方法一:判断条件,分别设置判断条件采集文字和图片

  方法二:先把采集文字作为一个整体,再循环采集图片

  3、教程目的

  采集图片URL 这一步在上图采集教程中有详细说明,不再赘述。本文将重点介绍采集图片采集的提示和注意事项。

  4、采集图片网址操作步骤

  下面以百度图片网址采集为例,演示采集图片网址的具体步骤。不同的网站picture URL会遇到不同的情况,请灵活处理。

  

  ① 选择图片→全选→采集以下图片地址

  

  ②启动采集,查看采集的结果,图片URL被采集down了

  

  具体流程步骤请参考:瀑布图采集,以百度图为例进行步骤1-4。

  5、图片批量导出操作步骤

  经过上面的操作,我们就得到了采集的图片的URL。接下来使用优采云专用图片批量下载工具将采集发送的图片URL中的图片下载并保存到本地。

  1)下载优采云图片批量下载工具,双击文件中的MyDownloader.app.exe打开软件

  2)打开文件菜单,选择从EXCEL导入(目前只支持EXCEL格式的文件)

  

  3)进行相关设置

  

  选择EXCEL文件:导入需要下载的EXCEL文件图片地址

  EXCEL 表名:对应数据表的名称

  文件URL列名:表中对应URL的列名

  保存文件夹名称:EXCEL中需要单独一栏列出图片要保存到文件夹的路径。在上面的例子中,我们在EXCEL中添加一列,列名是“图片保存文件夹”,列中的数据是“D:\百度图片采集\”,然后是“D:\百度图片采集 \"成为图片保存路径(可以自定义其他磁盘进行存储,也可以自定义文件夹名称;“D:\\”需要输入英文)

  以下是具体操作的演示:

  ①如上所述配置EXCEL表名、文件URL列名和保存文件夹名

  

  ②配置完成后点击“开始下载”

  

  ③打开D盘,找到“百度图片采集”文件夹,查看图片采集到了

  

  6、图片采集和批量导出技术

  1)不同的图片保存在不同的文件夹:优采云配置抓图模板时,提前添加一个字段作为图片文件夹的名称,可以设置多个文件夹。比如“D:\一级文件夹名称\二级文件夹名称\”,其中“D:\一级文件夹名称\”是固定的,“二级文件夹名称”,根据图片采集时的Title/关键词Change

  ①采集关键词的文本,作为“二级文件夹名称”。将字段名称修改为“图片保存文件夹”。将关键词格式化为采集,添加前缀和后缀,demo中添加的前缀为“D:\百度图片采集\”,后缀为“\”

  

  ②启动采集查看采集的结果,可以看到采集到的数据中已经有“图片保存文件夹”字段了,不需要手动设置

  

  ③ 图片导出操作后,打开D盘,找到“百度图片采集”文件夹,可以看到子文件夹名为关键词

  

  2)图片编号:如果下载后需要按照指定的文件名保存图片,则需要收录具体的文件名,如“D:\一级文件夹名\二级文件夹名称\1.jpg",可以使用excel自动编号

  ① 使用excel自动编号

  

  ②图片导出操作后,打开D盘,在“百度图片采集”文件夹中找到子文件夹。您可以看到图像为1、2、3、4.... .. 自动命名

  

  7、Notes

  1)支持下载格式

  ①采集下载的图片URL以.jpg、.gif、.png等图片格式结尾时,一般可以批量转换成图片

  ②采集的URL如果不是以图片格式结尾,则可能无法转换。可能是网站加密了这个图片链接,只支持在线观看

  2)如果图片URL采集乱码或者都一样,可能是图片需要一定的加载时间。我们需要在数据提取步骤之前等待并设置执行以允许图片完全加载;如果图片在当前屏幕显示一段时间后可以完全加载,则需要相应设置ajax滚动。详情请参考ajax滚动教程。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线