汇总:一键采集多个卷皮网商品主图及细节图并保存到同一目录
优采云 发布时间: 2022-12-15 02:39汇总:一键采集多个卷皮网商品主图及细节图并保存到同一目录
在操作演示之前,先来预览一下采集用【图片助手】创建的卷皮网产品图的效果。展示:
多个产品在批量下载过程中,已经被智能分类保存在各个文件夹中,如图:
让我为您一一演示操作。在浏览器中打开卷网,选择一个产品类别,如下图:
然后进入产品页面,右击需要的产品,选择“复制链接地址”,如下图:
当同时批量下载N个产品链接时,我们通常会选择开启“自动粘贴网址”功能,这样在复制产品链接时,就不需要手动一个一个粘贴链接了。粘贴效果如下:
复制链接后,我们需要勾选下载选项中的“下载主图”、“下载详情图”、“智能分类保存”三个选项,比如下载图片:
您可以点击“浏览”选择下载文件的保存位置,然后点击“立即下载”,如下图:
各产品下载完成后,点击“打开文件夹”即可看到,如下图:
解密:建站之路028优采云采集器抓取网页文章
百度搜索下载优采云采集器,然后运行LocoyPlatform.exe程序
打开优采云采集器后新建一个组,然后点击组创建一个新任务
重点来了。按照软件提示一步步操作。首先,我们需要设置 采集 URL 规则。小凡写了一些文章,尝试解压,打开一个体验,复制链接
添加采集地址到优采云采集器并点击添加按钮加入采集列表
多级URL获取点击“添加”,自动解析URL中的子链接,我们提供URL获取的提取范围
回到体验页面,在内容中选择第一段内容,然后在源码中找到对应的位置
找到文章第一段的位置,选择文本前的代码,这里小凡选择
同样原理从文章的尾部提取一段文字进行搜索,并提取唯一的结束码。小凡提取出来的是
设置好后保存,我们来测试一下网址采集,看看采集是否到达了当前网址及其子链接
然后我们进入第二步,设置采集内容规则,这里主要设置提取规则,告诉优采云采集器从哪里开始采集,方法是一样的和之前的采集范围设置是一样的,只是这里划分的更细一些。标题、内容集、作者、时间等,可单独提取
标题采集,这里我们使用“前后截取”的方式进行采集,当直接用标签提取标题时,标题会加上_,所以我们要加一个替换下面,并将 _ 替换为空字符。
内容提取,选中文本开头和结尾的内容然后在源码中找到对应的标签,接下来我们测试采集的效果,这就是我们采集得到的内容,可以看出采集已经到了,就是源码里面的内容。
这里我们继续第三步,保存文件到本地Word试试,配置完成后保存设置
回到主页,我们去 采集 看看 采集 是如何工作的
这样就可以提取出网站的内容,但是提取的比较粗糙,格式比较乱,冗余代码也很多,所以如果想完整准确的提取出文本,需要努力工作,慢慢调整规则。