优采云采集器一些简单的数组处理教程

优采云发布时间: 2020-08-09 21:51

　　注意标题：简单的数组处理教程，我太懒从简单的开始说

　　字段处理有两个，一个是单数组处理一个是通用处理（处理全部数组）

　　html标签过滤

　　我们最好把一些a标签和div层过滤 a标签避免他人有内链接导致权重或流量流失如果是技术型文章收录一些工具或则其他外部链接

　　我们过滤了会影响用户体验的话我们可以做一个站内链接跳转然后加上nofollow参数大家可以百度跳转链接html代码

　　基本上跳转后链接就是？=

　　怎么实现呢？

　　那我们就要讲内容替换了

　　内容替换

　　接着里面的讲，假如是我们要替换的代码那么可以添加原内容href=" 替换成 rel="nofollow" href="？=

　　这样就可以达到我前面说的疗效，如果你认为麻烦并且不怕影响用户体验可以直接过滤

　　此外我们还可以替换一些多余式样代码采集的数组有多余的代码导致文章布局错乱添加一个内容替换填写我们的源内容把替换内容空着就可以清除了

　　还有一个批量替换，这个我就不讲了很简单

　　关键字过滤

　　其实讲到这儿我有点不想写了，写这个文章是凌晨12点我有点想睡觉了

　　我们填写某个关键字，如果出现该字符可以不采集或者必须出现这个字符就能采集具体如何用看个人

　　主要功能有测量到关键词将该数组值设为空，检测到关键词不采集该条数据，未检查到关键词将该数组值设为空，未检查到关键词不采集该条数据

　　翻译

　　这个采集海外网站用的到，不过须要申请api插口，百度翻译api：

　　百度翻译api标准版服务完全免费，不限使用字符量完成身分认证，还可免费升级至高级版、尊享版，每月享受200万免费字符量及增值服务

　　登陆开启服务后到管理控制台 – 开发者信息就能看到api的信息

　　工具箱

　　主要功能有：去除前后空格，清除文本格式（去除html元素所有款式，如：id、class、style等），将文本链接标记为图片链接

　　基本上简单的基础数据处理就这几个，基本上这几个能够建立我们的数据处理要求（反正我是够用了）

　　注意一定要开启div层过滤，因为采集到的文章数据末尾都有多余都div 不过滤都话网站布局会错乱

　　还有一些图片有防盗链的，可以开启图片下载如果有水印不想下载可以过滤图片参数

0

2020-08-09

关键字文章采集器

0 个评论

要回复文章请先登录或注册