优采云中采集图片有以下几大步和注意事项
优采云 发布时间: 2021-06-15 23:20优采云中采集图片有以下几大步和注意事项
1、图片采集
优采云、采集图片有以下大步骤
1)先采集网页图片链接网址
2)通过优采云提供的图片批量下载工具将URL转换为图片
2、常见应用场景
1)非地震流网站纯图片采集
2)传说流网站纯图片采集
此类瀑布网站的采集需要按照以下步骤设置采集规则:
①点击采集rule,打开网页步骤的高级选项;
②检查页面加载后向下滚动;
③ 填写滚动条数和每滚动条间隔;
④ 滚动方式设置为:直接滚动到底部;
完成上述规则设置后,将采集设置为页面上图片的URL。
注意:滚动次数和滚动间隔应根据网页的加载情况设置。如果向下滚动,页面信息会加载缓慢。建议将滚动间隔设置的大一些。滚动的次数应该根据滚动多少次可以加载我们需要的所有数据而定。建议多加一两次准备。滚动的方式取决于是网页一滚动到最后就可以顺利加载所有数据,还是逐个滚动。一般来说,一屏滚动是有效的,但比较耗时。滚动屏幕的大小取决于您的屏幕大小。 Cloud 采集 默认为全屏。
3)文章图文采集
需要下载文章采集中的所有文字和图片,一般有两种方式
方法一:判断条件,分别设置判断条件采集文字和图片
方法二:先把采集文字作为一个整体,再循环采集图片
3、教程目的
采集图片URL 这一步在上图采集教程中有详细说明,不再赘述。本文将重点介绍采集图片采集的提示和注意事项。
4、采集图片网址操作步骤
下面以百度图片网址采集为例,演示采集图片网址的具体步骤。不同的网站picture URL会遇到不同的情况,请灵活处理。
① 选择图片→全选→采集以下图片地址
②启动采集,查看采集的结果,图片URL被采集down了
具体流程步骤请参考:瀑布图采集,以百度图为例进行步骤1-4。
5、图片批量导出操作步骤
经过上面的操作,我们就得到了采集的图片的URL。接下来使用优采云专用图片批量下载工具将采集发送的图片URL中的图片下载并保存到本地。
1)下载优采云图片批量下载工具,双击文件中的MyDownloader.app.exe打开软件
2)打开文件菜单,选择从EXCEL导入(目前只支持EXCEL格式的文件)
3)进行相关设置
选择EXCEL文件:导入需要下载的EXCEL文件图片地址
EXCEL 表名:对应数据表的名称
文件URL列名:表中对应URL的列名
保存文件夹名称:EXCEL中需要单独一栏列出图片要保存到文件夹的路径。在上面的例子中,我们在EXCEL中添加一列,列名是“图片保存文件夹”,列中的数据是“D:\百度图片采集\”,然后是“D:\百度图片采集 \"成为图片保存路径(可以自定义其他磁盘进行存储,也可以自定义文件夹名称;“D:\\”需要输入英文)
以下是具体操作的演示:
①如上所述配置EXCEL表名、文件URL列名和保存文件夹名
②配置完成后点击“开始下载”
③打开D盘,找到“百度图片采集”文件夹,查看图片采集到了
6、图片采集和批量导出技术
1)不同的图片保存在不同的文件夹:优采云配置抓图模板时,提前添加一个字段作为图片文件夹的名称,可以设置多个文件夹。比如“D:\一级文件夹名称\二级文件夹名称\”,其中“D:\一级文件夹名称\”是固定的,“二级文件夹名称”,根据图片采集时的Title/关键词Change
①采集关键词的文本,作为“二级文件夹名称”。将字段名称修改为“图片保存文件夹”。将关键词格式化为采集,添加前缀和后缀,demo中添加的前缀为“D:\百度图片采集\”,后缀为“\”
②启动采集查看采集的结果,可以看到采集到的数据中已经有“图片保存文件夹”字段了,不需要手动设置
③ 图片导出操作后,打开D盘,找到“百度图片采集”文件夹,可以看到子文件夹名为关键词
2)图片编号:如果下载后需要按照指定的文件名保存图片,则需要收录具体的文件名,如“D:\一级文件夹名\二级文件夹名称\1.jpg",可以使用excel自动编号
① 使用excel自动编号
②图片导出操作后,打开D盘,在“百度图片采集”文件夹中找到子文件夹。您可以看到图像为1、2、3、4.... .. 自动命名
7、Notes
1)支持下载格式
①采集下载的图片URL以.jpg、.gif、.png等图片格式结尾时,一般可以批量转换成图片
②采集的URL如果不是以图片格式结尾,则可能无法转换。可能是网站加密了这个图片链接,只支持在线观看
2)如果图片URL采集乱码或者都一样,可能是图片需要一定的加载时间。我们需要在数据提取步骤之前等待并设置执行以允许图片完全加载;如果图片在当前屏幕显示一段时间后可以完全加载,则需要相应设置ajax滚动。详情请参考ajax滚动教程。