优采云图片采集教程(二):如何采集图片?
优采云 发布时间: 2021-08-26 07:04优采云图片采集教程(二):如何采集图片?
1、图片采集
优采云、采集图片有以下大步骤
1)先采集网页图片链接网址
2)通过优采云提供的图片批量下载工具将URL转换为图片
优采云图片批量下载工具
2、常见应用场景
1)非校园流网站纯图片采集
采集example:豆瓣图片采集tutorial
2)传说流网站纯图片采集
此类瀑布网站的采集需要按照以下步骤设置采集规则:
①点击采集rule,打开网页步骤的高级选项;
②检查页面加载后向下滚动;
③ 填写滚动条数和每滚动条间隔;
④ 滚动方式设置为:直接滚动到底部;
完成上述规则设置后,将采集设置为页面上图片的URL。
采集example:百度图片采集tutorial
注意:滚动次数和滚动间隔应根据网页的加载情况设置。如果向下滚动,页面信息会加载缓慢。建议将滚动间隔设置的大一些。滚动的次数应该根据滚动多少次可以加载我们需要的所有数据而定。建议多加一两次准备。滚动的方式取决于是网页一滚动到最后就可以顺利加载所有数据,还是需要一次滚动一屏。一般来说,一屏滚动是有效的,但比较耗时。滚动屏幕的大小取决于您的屏幕大小。云端采集默认全屏。
3)文章图文采集
需要下载文章采集中的所有文字和图片,一般有两种方法
方法一:判断条件,分别设置判断条件采集文字和图片
采集例子:腾讯新闻图文采集
方法二:先把采集文字作为一个整体,再循环采集图片
采集示例:UC 标题图文采集
3、教程目的
采集图片URL 这一步在上图采集教程中有详细说明,不再赘述。本文将重点介绍采集图片的采集提示和注意事项。
4、采集Image URL 操作步骤
下面以百度图片网址采集为例,演示采集图片网址的具体步骤。不同的网站picture URL会遇到不同的情况,请灵活处理。
①选择图片→全选→采集以下图片地址
②开始采集,看看采集。图片网址被采集@
具体流程步骤请参考:瀑布图采集,以百度图为例进行步骤1-4。
5、图片批量导出操作步骤
经过以上操作,我们就得到了采集的图片的URL。接下来使用优采云专用图片批量下载工具,将采集发送的图片URL中的图片下载并保存到本地。
1)下载优采云图片批量下载工具,双击文件中的MyDownloader.app.exe打开软件
2)打开文件菜单,选择从EXCEL导入(目前只支持EXCEL格式的文件)
3)进行相关设置
选择EXCEL文件:导入需要下载的EXCEL文件图片地址
EXCEL 表名:对应数据表的名称
文件URL列名:表中对应URL的列名
保存文件夹名称:EXCEL中需要单独一栏列出图片要保存到文件夹的路径。在上面的例子中,我们在EXCEL中添加一列,列名是“图片保存文件夹”,列中的数据是“D:\百度图片采集\”,然后是“D:\百度图片采集 \"成为图片保存路径(可以自定义其他磁盘进行存储,也可以自定义文件夹名称;“D:\\”需要输入英文)
以下为具体操作演示:
①如上所述配置EXCEL表名、文件URL列名和保存文件夹名
②配置完成后点击“开始下载”
③打开D盘,找到“百度图片采集”文件夹,查看图片采集到了
6、图片采集和批量导出技术
1)不同的图片保存在不同的文件夹:优采云配置抓图模板时,提前添加一个字段作为图片文件夹的名称,可以设置多个文件夹。比如“D:\一级文件夹名\二级文件夹名\”,其中“D:\一级文件夹名\”是固定的,“二级文件夹名”是根据图片采集时的Title/关键词Change
①采集关键词的文本,作为“二级文件夹名称”。将字段名称修改为“图片保存文件夹”。从采集格式化关键词,添加前缀和后缀,demo中添加的前缀为“D:\百度图片采集\”,后缀为“\”
②启动采集查看采集的结果,可以看到采集到的数据中已经有“图片保存文件夹”字段了,不需要手动设置
③ 图片导出操作后,打开D盘,找到“百度图片采集”文件夹,可以看到子文件夹名为关键词
2)图片编号:如果下载后需要按照指定的文件名保存图片,则需要收录具体的文件名,如“D:\一级文件夹名\二级文件夹名称\1.jpg",可以使用excel自动编号
① 使用excel自动编号
②图片导出操作后,打开D盘,在“百度图片采集”文件夹中找到子文件夹。您可以看到图像为1、2、3、4.... .. 自动命名
7、Notes
1)支持下载格式
①采集下载的图片URL以.jpg、.gif、.png等图片格式结尾时,一般可以批量转换成图片
②采集的URL如果不是以图片格式结尾,则可能无法转换。可能是网站加密了这个图片链接,只支持在线查看
2)如果图片URL采集乱码或者都一样,可能是图片需要一定的加载时间。我们需要在数据提取步骤和设置执行之前等待,让图片完全加载;如果图片在当前屏幕显示一段时间后可以完全加载,则需要相应设置ajax滚动。详情请参考ajax滚动教程。