优采云采集器一些简单的数组处理教程

优采云 发布时间: 2020-08-09 21:51

  注意标题:简单的数组处理教程,我太懒从简单的开始说

  字段处理有两个,一个是单数组处理 一个是通用处理(处理全部数组)

  

  html标签过滤

  

  我们最好把一些a标签和div层过滤 a标签避免他人有内链接 导致权重或流量流失 如果是技术型文章 收录一些工具或则其他外部链接

  我们过滤了会影响用户体验的话 我们可以做一个站内链接跳转 然后加上nofollow参数 大家可以百度跳转链接html代码

  基本上跳转后链接就是?=

  怎么实现呢?

  那我们就要讲内容替换了

  内容替换

  接着里面的讲, 假如是我们要替换的代码 那么可以添加原内容href=" 替换成 rel="nofollow" href="?=

  这样就可以达到我前面说的疗效,如果你认为麻烦并且不怕影响用户体验 可以直接过滤

  此外我们还可以替换一些多余式样代码 采集的数组有多余的代码 导致文章布局错乱 添加一个内容替换 填写我们的源内容 把替换内容空着就可以清除了

  还有一个批量替换,这个我就不讲了 很简单

  关键字过滤

  其实讲到这儿我有点不想写了,写这个文章是凌晨12点我有点想睡觉了

  

  我们填写某个关键字,如果出现该字符可以不采集或者必须出现这个字符就能采集 具体如何用看个人

  主要功能有测量到关键词将该数组值设为空,检测到关键词不采集该条数据,未检查到关键词将该数组值设为空,未检查到关键词不采集该条数据

  翻译

  这个采集海外网站用的到,不过须要申请api插口,百度翻译api:

  

  百度翻译api标准版服务完全免费,不限使用字符量 完成身分认证,还可免费升级至高级版、尊享版,每月享受200万免费字符量及增值服务

  登陆开启服务后到管理控制台 – 开发者信息 就能看到api的信息

  工具箱

  

  主要功能有:去除前后空格,清除文本格式(去除html元素所有款式,如:id、class、style等),将文本链接标记为图片链接

  基本上简单的基础数据处理就这几个,基本上这几个能够建立我们的数据处理要求(反正我是够用了)

  注意一定要开启div层过滤,因为采集到的文章数据末尾都有多余都div 不过滤都话网站布局会错乱

  还有一些图片有防盗链的,可以开启图片下载 如果有水印 不想下载可以过滤图片参数

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线