文章采集器(优采云采集的一点点知识点功能还是很强大的,不过要有点实力了 )

优采云 发布时间: 2022-03-30 23:01

  文章采集器(优采云采集的一点点知识点功能还是很强大的,不过要有点实力了

)

  优采云采集器的功能还是很强大的,但是如果涉及到将采集数据导入到自己的数据库中,自己写采集的导入可能效率更高(但它需要一点力量)。介绍优采云采集的一点小知识:

  1:采集开头是新建任务(可以先创建组,再在组下创建任务)。

  2:之后,建立规则,分为四个步骤:

  1):采集网址规则

  2):采集内容规则

  

  

  

  

  

  如果采集的结果中收录参数1、参数2等,那么应该是之前设置的采集规则没有删除合并结果的原因。

  优采云采集器 支持两种正则,一种是纯正则,一种是参数正则。

  关于纯正典:

  在标签中使用正则表达式的格式如下:

  开始代码(?正则表达式)结束代码

  其中,如果开始码和结束码中有需要转义的字符,应该用\转义。

  例如这个:

  (?[\s\S]*?)

  , 我们这里需要的是

  标签里面的内容,所以可以这样写。

  其他扩展点:

  (?[\s\S]*?)

  也是采集div标签里面的内容,

  (?[\s\S]*?)

  采集标签内容。

  关于参数规律:

  这不是常规的,你可以结合采集到的内容。输入框两边不能为空,下面的组合结果参数按照正则匹配内容的顺序写。

  例如:

  正则匹配内容:组合结果中,【参数1】为href的内容,【参数2】为title对应的内容。

  一般来说,如果页面有多个重复标签div,而你想要采集 div标签里面的标签内容,那么最好从最外层的重复标签div开始,然后使用内容过滤的方法. 来到采集标签内容的里面里面。

  3):发布内容设置

  免费版,一般选择第三种方式,导入自定义数据库访问。

  4):文件保存和高级设置

  这通常不起作用

  如果报错:您没有为该任务选择任何采集URL和内容的步骤,请查看任务===="任务首页,并勾选任务右侧的三个复选框。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线