免规则采集器列表算法( 批量爬取大量的好看的图片到自己的本地电脑哈哈哈)
优采云 发布时间: 2021-10-06 05:30免规则采集器列表算法(
批量爬取大量的好看的图片到自己的本地电脑哈哈哈)
优采云 将微博中的图片抓取到本地
批量抓取大量好看的图片到本地电脑哈哈哈哈哈哈哈
微博图片被盗
详细步骤:
微博图片采集
本文介绍如何使用优采云采集微博图片。
微博上有很多博主发布了很多高质量的图片。很多时候,我们想要保存这些高质量的图片,我们该怎么做,一张一张?使用优采云采集器,只需要制定规则,就可以自动下载我们想要的图片采集。主要通过两个主要步骤:首先下载图片网址采集;然后使用优采云提供的图片批量下载工具,将URL批量转换成图片。
采集网站:
本文仅以博主采集发布的图片为例。在实际操作过程中,可以根据自己的需要更改想要采集的博主。您还可以使用URL列表循环批量处理采集多个微博博主发布的所有图片。本文中采集的微博图片的具体字段为:博主ID、发帖时间、微博地址、微博发送方式、微博内容、图片地址、图片存储文件夹。
开始前请注意,如果您还没有登录优采云,需要先建立登录流程。请参考微博登录教程:
使用功能点:
l 分页列表和详细信息提取
lAJAX滚动教程
l优采云7.0 教程-AJAX点击与翻页教程
第一步:创建微博图片采集任务
1)进入主界面,选择“自定义模式”,点击“立即使用”
2)将采集的网址复制粘贴到网站的输入框中,点击“保存网址”
第 2 步:创建翻页循环
1)系统自动打开网页,进入微博。观察网页的结构。当页面下拉到底部时,会出现“正在加载,请稍候”的字样。当我们下拉时,页面将加载新数据。2 次下拉加载后,此页面到达底部并出现“下一页”按钮
本网页涉及ajax下拉加载,需要设置一些高级选项。打开“高级选项”,勾选“页面加载后向下滚动”,设置滚动次数为“3次”,每次间隔为“3秒”,滚动方式为“直接滚动到底部”,最后点击“确定”
注意:这里的滚动次数和间隔时间需要根据网站的情况来设置,不是绝对的。一般来说,间隔时间>网站加载时间就足够了。有时上网速度慢,网页加载很慢,需要根据具体情况进行调整。
详情请看:优采云7.0教程-AJAX滚动教程
/tutorial/ajgd_7.aspx?t=1
2) 将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中选择“循环点击下一页”
与“打开网页”类似,这一步也涉及到Ajax下拉加载。打开“高级选项”,勾选“页面加载后向下滚动”,设置滚动次数为“次”,每次间隔“3秒”,滚动方式为“直接滚动到底部”,最后点击“好的”
和上面一样
第 3 步:创建一个列表循环
1)移动鼠标选择页面上的第一个微博链接。选择后,系统会自动识别页面上的其他类似链接。在右侧的操作提示框中,选择“全选”
2)选择“循环点击每个链接”创建列表循环
第四步:提取微博文字和图片
1)系统会自动点击进入第一条微博详情页。在微博详情页,我们首先采集博主ID、发帖时间、微博内容、微博网址、微博发送方式。点击你要采集的字段,在右侧的操作提示框中,选择“采集元素的文本”(采集微博网址,然后选择“采集@ > 链接地址")
2) 选择字段信息后,选择对应的字段,自定义字段的命名。完成后,单击“确定”
3) 点击页面第一张图片,在操作提示框中选择“全选”
4)选择“点击循环中的每张图片”
由于这个网页涉及到Ajax技术,我们需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”
注:AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换,可以更新网页的某一部分,而无需重新加载整个网页。
性能特点: a.当你点击网页中的一个选项时,网站的大部分网址不会改变;湾 网页未完全加载,但仅部分加载了数据,这些数据会发生变化。
验证方法:点击操作后,URL输入栏在浏览器中不会出现加载状态或转动状态。
5)点击第一张图片,在弹出的操作提示框中选择“采集图片地址”。图片地址已经采集下,修改此字段为“图片地址”
6)接下来准备批量导出图片网址为图片。点击“添加特殊字段”,选择“添加固定字段”,输入“D:\微博图片采集\”,其中“D:\\”为图片存储盘,“微博图片采集 @>"是图片保存的文件夹名
第五步:数据采集并导出
1)点击左上角“开始采集”,选择“本地采集”开始
注意:本地采集占用采集的当前计算机资源,如果有采集时间要求或当前计算机长时间不能执行采集可以使用云采集功能,云采集在网络采集中进行,不需要当前电脑支持,可以关闭电脑,可以设置多个云节点分配任务。10个节点相当于10台电脑分配任务帮你采集,速度降低到原来的十分之一;采集收到的数据可以在云端存储三个月,随时可以导出。
2)采集 完成后会弹出提示,选择“导出数据”。选择“合适的导出方式”导出采集好微博帖子的数据,这里我们选择excel作为导出格式
3) 数据导出如下图
第六步:批量转换图片网址为图片
经过上面的操作,我们得到了图片的URL为采集。接下来使用优采云专用的图片批量下载工具,将采集到达的图片URL中的图片下载并保存到本地。
图片批量下载工具:
1)下载优采云图片批量下载工具,双击文件中的MyDownloader.app.exe文件打开软件
2)打开文件菜单,选择从EXCEL导入(目前只支持EXCEL格式的文件)
3) 进行相关设置,设置完成后点击确定导入文件
选择EXCEL文件:导入你需要下载的EXCEL文件图片地址
EXCEL表名:对应数据表的名称
文件URL列名:表中对应URL的列名
保存文件夹名称:EXCEL中需要单独一栏列出要保存的图片到文件夹的路径,可以设置不同的图片存放在不同的文件夹
如果要将文件保存到文件夹中,路径需要以“\”结尾,例如:“D:\Sync\”,如果下载后要按照指定的文件名保存文件,则需要收录特定的文件名,例如“D :\Sync\1.jpg”
如果下载的文件路径和文件名完全一样,原文件将被删除
3) 点击确定后,界面如图,然后点击“开始下载”
4) 页面底部会显示图片下载状态
5) 找到你设置的图片保存文件夹,可以看到图片URL已经批量转换为图片
注意:软件一定要安装,否则会报错(我试了好久才搞定)
然后就可以导出到本地了
当地位置:
转载于: