优采云采集器一些简单的数组处理教程
优采云 发布时间: 2020-08-09 21:51注意标题:简单的数组处理教程,我太懒从简单的开始说
字段处理有两个,一个是单数组处理 一个是通用处理(处理全部数组)
html标签过滤
我们最好把一些a标签和div层过滤 a标签避免他人有内链接 导致权重或流量流失 如果是技术型文章 收录一些工具或则其他外部链接
我们过滤了会影响用户体验的话 我们可以做一个站内链接跳转 然后加上nofollow参数 大家可以百度跳转链接html代码
基本上跳转后链接就是?=
怎么实现呢?
那我们就要讲内容替换了
内容替换
接着里面的讲, 假如是我们要替换的代码 那么可以添加原内容href=" 替换成 rel="nofollow" href="?=
这样就可以达到我前面说的疗效,如果你认为麻烦并且不怕影响用户体验 可以直接过滤
此外我们还可以替换一些多余式样代码 采集的数组有多余的代码 导致文章布局错乱 添加一个内容替换 填写我们的源内容 把替换内容空着就可以清除了
还有一个批量替换,这个我就不讲了 很简单
关键字过滤
其实讲到这儿我有点不想写了,写这个文章是凌晨12点我有点想睡觉了
我们填写某个关键字,如果出现该字符可以不采集或者必须出现这个字符就能采集 具体如何用看个人
主要功能有测量到关键词将该数组值设为空,检测到关键词不采集该条数据,未检查到关键词将该数组值设为空,未检查到关键词不采集该条数据
翻译
这个采集海外网站用的到,不过须要申请api插口,百度翻译api:
百度翻译api标准版服务完全免费,不限使用字符量 完成身分认证,还可免费升级至高级版、尊享版,每月享受200万免费字符量及增值服务
登陆开启服务后到管理控制台 – 开发者信息 就能看到api的信息
工具箱
主要功能有:去除前后空格,清除文本格式(去除html元素所有款式,如:id、class、style等),将文本链接标记为图片链接
基本上简单的基础数据处理就这几个,基本上这几个能够建立我们的数据处理要求(反正我是够用了)
注意一定要开启div层过滤,因为采集到的文章数据末尾都有多余都div 不过滤都话网站布局会错乱
还有一些图片有防盗链的,可以开启图片下载 如果有水印 不想下载可以过滤图片参数