采集器采集时常遇到重复图片没有办法识别的情况

优采云 发布时间: 2022-07-08 02:04

  采集器采集时常遇到重复图片没有办法识别的情况

  采集器采集时常遇到重复图片没有办法识别的情况。遇到这种情况,不能找*敏*感*词*浏览器,必须找代码可以采集该图片的采集器。

  1、我们首先选择【自定义】

  2、找到要采集的图片:

  3、查看该图片所属分组:以上三步操作步骤详细图文教程可以到“鲜肉说”公众号查看。

  

  采集图片分为:批量采集,批量采集一个页面全部图片,批量采集超出页面部分。是不是有些懵圈了,小编来帮你们整理下:一,采集全部图片方法:利用python的pil库,打开页面,通过jieba库把图片转化为特征值。然后把特征值用jieba.weigh()进行分割,我们只需要做一些基本的操作。注意代码中:采集图片个数要设置正确。

  采集图片太多,会造成内存不足,请将采集图片数设置为256,可有效缓解内存不足造成的页面内容一部分没有采集到。jieba库我们是从模块spider中导入的,这里我们导入我们用到的模块。.content为采集返回数据,可以根据自己需要进行修改。content_list为返回内容列表,我们要采集图片,我们可以通过循环遍历图片序列来抓取图片。

  二,批量采集图片:我们采集图片时,可以根据页面中不同元素获取图片,然后按特征值进行分割(这是批量采集的核心,也是所有重复数据处理的关键)一,页面元素的抽取方法:页面中,鼠标悬停一个页面标签上会出现一个绿色的问号,点击问号即可弹出页面元素一个页面中所有的图片二,生成图片列表方法:。

  1、获取图片列表...

  2、找到对应的元素进行解析

  

  2、获取一个元素的查找方法找到a标签的元素--><a>>-->找到我们要返回的a标签元素--><a>返回我们要返回的元素的相应特征值

  3、抽取图片元素我们找到该图片的所有链接-->(注意只找到a标签的元素)

  4、查找页面链接-->语句

  5、title=图片三,

  4、循环遍历数据库

  5、将其中一张图片中的特征值和另一张图片中的特征值进行比对进行匹配通过以上方法能够尽可能地节省内存和空间。若遇到不能匹配正确数据的页面,建议检查下采集有没有存在其他问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线