文章采集器(优采云采集的一点点知识点功能还是很强大的,不过要有点实力了 )
优采云 发布时间: 2022-03-30 23:01文章采集器(优采云采集的一点点知识点功能还是很强大的,不过要有点实力了
)
优采云采集器的功能还是很强大的,但是如果涉及到将采集数据导入到自己的数据库中,自己写采集的导入可能效率更高(但它需要一点力量)。介绍优采云采集的一点小知识:
1:采集开头是新建任务(可以先创建组,再在组下创建任务)。
2:之后,建立规则,分为四个步骤:
1):采集网址规则
2):采集内容规则
如果采集的结果中收录参数1、参数2等,那么应该是之前设置的采集规则没有删除合并结果的原因。
优采云采集器 支持两种正则,一种是纯正则,一种是参数正则。
关于纯正典:
在标签中使用正则表达式的格式如下:
开始代码(?正则表达式)结束代码
其中,如果开始码和结束码中有需要转义的字符,应该用\转义。
例如这个:
(?[\s\S]*?)
, 我们这里需要的是
标签里面的内容,所以可以这样写。
其他扩展点:
(?[\s\S]*?)
也是采集div标签里面的内容,
(?[\s\S]*?)
采集标签内容。
关于参数规律:
这不是常规的,你可以结合采集到的内容。输入框两边不能为空,下面的组合结果参数按照正则匹配内容的顺序写。
例如:
正则匹配内容:组合结果中,【参数1】为href的内容,【参数2】为title对应的内容。
一般来说,如果页面有多个重复标签div,而你想要采集 div标签里面的标签内容,那么最好从最外层的重复标签div开始,然后使用内容过滤的方法. 来到采集标签内容的里面里面。
3):发布内容设置
免费版,一般选择第三种方式,导入自定义数据库访问。
4):文件保存和高级设置
这通常不起作用
如果报错:您没有为该任务选择任何采集URL和内容的步骤,请查看任务===="任务首页,并勾选任务右侧的三个复选框。