采集图片URL并下载图片-以Tuniu Travel Network为例

优采云 发布时间: 2020-08-08 16:03

  注意: 从GooSeeker采集器的V9.0.2版本开始,采集器术语“主题”已更改为“任务”. 在采集器浏览器中,首先命名任务,然后创建规则,然后登录到Jisuke官方网站的成员中心. 在“任务管理”中,您可以查看任务采集和执行,管理线程URL以及进行计划设置.

  I. 操作步骤

  Jisouke采集器不仅可以捕获网页上的文本和URL数据,还可以将图片批量下载到计算机. 无论列表页面或详细信息页面上的图片如何,只要您可以获取图片URL,就可以使用集合采集器下载图片. 让我们以Tuniu的自助游网页为例,介绍如何使用Jisukeke自动下载图片. 步骤如下:

  

  注意: 从采集器软件V9.0.0开始,下载后图片的存储位置已发生很大变化,但是定义规则的过程保持不变. 请注意第五步中的说明和相应的链接.

  两个,案例规则+操作步骤

  如果仅采集图片,则不知道图片来自何处. 因此,我们通常在网页上采集文本信息“旅游名称”和“价格”,最后我们可以将它们与excel匹配. 文章“采集网页数据”已经详细介绍了前两个步骤,我将从下面的第三步开始.

  

  第3步: 采集图片网址

  3.1,单击小图以找到其IMG节点. 我们不直接采集大图片,因为大图片会被小图片放大,并且只显示一张图片,因此只能捕获一张大图片,但是可以捕获全部小图片,最后由excel处理可以变成一幅大图. 因此,在此类网页等情况下捕获小图片要容易得多.

  3.2,双击以展开IMG,您将在属性下找到@src,该属性是存储图像URL的节点

  3.3,右键单击@src,选择“内容映射”->“新建捕获内容”,然后输入标签名称“ Small Image URL”

  

  3.4,选择“小图片URL”,勾选以下载图片

  注意: 将@src节点映射到标签“小图片URL”后,只需勾选下载内容->下载图片,不要勾选高级设置->获取特定内容-> Web片段和图片URL,否则将输出图片网址错误,无法下载图片.

  

  第4步: 复制样本

  4.1. 右键单击工作台上的“小图片URL”,选择“添加”->“之前”,然后在其前面添加新标签“列”. 然后,右键单击“小图片URL”,然后选择“移动”->“向右移动”. 这样,“列”收录“小图片网址”. 其中,标签“列”仅用于样本复制. 由于网页上只有一个旅游名称和价格信息,并且有多张小图片,因此有必要部分复制这些小图片.

  

  4.2. 在工作台上选择“列”,单击网页上的第一个小图像,该图像与下面的DOM节点相对应,右键单击此节点,然后选择Sample Copy Map-> First. 单击第二个小图像以对应于下面的DOM节点,右键单击该节点,然后选择Sample Copy Mapping-> Second. 这样就制作了小图片的样本副本. 您可以阅读文章“采集列表数据”以获取样本副本.

  

  第5步: 保存规则并抓取数据

  5.1. 点击测试. 仅捕获第一个小图像的URL,而其他的则为空,表明数据规则需要微调. 通常调整定位,选择绝对定位即可解决.

  

  5.2,单击“保存规则”,对数据进行爬网,成功采集后,将在本地DataScraperWorks文件夹中生成一个xml文件和一个用于存储图片的文件夹. 有关结果文件的存储位置,请参见“查看数据文件”. 有关图片文件存储位置的说明,请参阅“ Jisouke Web爬网程序图片下载功能”

  

  5.3. 最后,将xml文件和图片导入excel以进行匹配. 您可以调整图片的尺寸. 请参阅文章“如何自动将大量下载的图片与excel匹配?” “.

  

  

  上一篇文章: “位置标记采集列表数据”下一篇文章: “如何查看XML文件的结构”

  如果有任何疑问,可以或

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线