关键词采集(优采云图片采集教程(二):如何采集图片?)
优采云 发布时间: 2021-09-28 07:011、图片采集
在优采云中,采集的图片主要有以下几个步骤
1)第一个采集网页图片链接地址
2)通过优采云提供的图片批量下载工具将URL转换为图片
优采云图片批量下载工具
2、常见应用场景
1)非瀑布流网站纯图采集
采集示例:豆瓣图片采集教程
2)瀑布流网站纯图采集
这种类型的瀑布网站的采集需要按照以下步骤设置采集规则:
① 点击采集规则,打开网页步骤的高级选项;
②检查页面加载后向下滚动;
③填写滚动的次数和每次滚动的间隔;
④ 滚动方式设置为:直接滚动到底部;
完成以上规则设置后,再对页面图片的URL执行采集
采集示例:百度图片采集教程
注意:滚动次数和滚动间隔应根据网页加载情况设置。如果向下滚动,页面信息会加载缓慢。建议将滚动间隔设置的大一些。滚动的次数应该根据滚动多少次可以加载我们需要的所有数据而定。建议多加一两次准备。滚动的方式取决于是网页一滚动到最后就可以顺利加载所有数据,还是需要一次滚动一屏。一般来说,一屏滚动效果很好,但比较耗时。滚动屏幕的大小取决于您的屏幕大小。Cloud 采集 默认为全屏。
3)文章图形采集
需要采集文章中的所有文字和图片,一般有两种方法
方法一:判断条件,分别设置判断条件采集文字和图片
采集示例:腾讯新闻图文采集
方法二:先将采集文字整体化,再回收采集图片
采集示例:UC 标题图文采集
3、 教程目的
采集图片URL的步骤在上图采集教程中有详细说明,不再赘述。本文将重点介绍采集头像采集的技巧和注意事项。
4、采集图片网址操作步骤
下面以百度图片网址采集为例,演示采集图片网址的具体步骤。不同的网站图片网址会遇到不同的情况,请灵活处理。
①选择一张图片→全选→采集以下图片地址
②启动采集,查看采集的结果,图片URL被采集down
具体流程步骤请参考:瀑布图采集,以百度图为例进行步骤1-4。
5、图片批量导出操作步骤
经过上面的操作,我们得到了图片的URL为采集。接下来使用优采云专用的图片批量下载工具,将采集到达的图片URL中的图片下载并保存到本地。
1)下载优采云图片批量下载工具,双击文件中的MyDownloader.app.exe打开软件
2)打开文件菜单,选择从EXCEL导入(目前只支持EXCEL格式的文件)
3) 进行相关设置
选择EXCEL文件:导入你需要下载的EXCEL文件图片地址
EXCEL表名:对应数据表的名称
文件URL列名:表中对应URL的列名
保存文件夹名称:EXCEL中需要单独一栏列出图片要保存到文件夹的路径。在上面的例子中,我们在EXCEL中添加一列,列名是“图片保存文件夹”,列中的数据是“D:\百度图片采集\”,然后是“D:\百度图片< @采集\"成为图片保存路径(可以自定义其他磁盘存储,也可以自定义文件夹名称;"D:\\"需要输入英文)
下面是具体的操作演示:
① 如上所述配置EXCEL表名、文件URL列名和保存文件夹名
② 配置完成后,点击“开始下载”
③打开D盘,找到“百度图片采集”文件夹,查看采集到达的图片
6、图片采集和批量导出技术
1)不同的图片保存在不同的文件夹:在优采云中配置抓图模板时,提前添加一个字段作为图片文件夹的名称,可以设置多个文件夹。比如“D:\一级文件夹名\二级文件夹名\”,其中“D:\一级文件夹名\”是固定的,“二级文件夹名”根据图片< @采集标题/关键词更改
①采集关键词的文本作为“二级文件夹名称”。将字段名称修改为“图片保存文件夹”。格式化采集中的关键词,添加前缀和后缀,demo中添加的前缀为“D:\百度图片采集\”,后缀为“\”
②启动采集查看采集的结果,可以看到在采集到的数据中,已经有一个“图片保存文件夹”字段,不需要手动设置
③图片导出操作后,打开D盘,找到“百度图片采集”文件夹,可以看到子文件夹命名为关键词
2) 图片编号:如果下载后需要按照指定的文件名保存图片,则需要收录具体的文件名,如“D:\一级文件夹名\二级文件夹name\1.jpg",可以用excel自动编号
① 用excel自动编号
②图片导出操作后,打开D盘,在“百度图片采集”文件夹中找到子文件夹。可以看到图片为1、2、3、4......自动命名
7、备注
1)支持下载格式
①当从采集下载的图片URL以.jpg、.gif、.png等图片格式结尾时,一般可以批量转换成图片
②如果来自采集的URL不是以图片格式结尾,则可能无法转换。可能是网站加密了这个图片链接,只支持在线查看
2)如果图片网址采集是乱码或者都一样,可能是图片加载需要一定的时间。我们需要在数据提取步骤之前等待,并在图片完全加载之前设置执行;对于如果在当前屏幕上显示图片需要一段时间才能完全加载图片,则需要相应设置ajax滚动。详情请参考ajax滚动教程。