前两章如何对内容数据的采集的四种常规方式

优采云 发布时间: 2021-08-06 23:13

  前两章如何对内容数据的采集的四种常规方式

  大家好,我是教程的主人。通过前两章的学习,你应该已经掌握了如何获取内容页面的URL。本章从采集和文章内容的处理开始。本节主要介绍如何采集内容数据,使用以下四种方法:

  1.前后截取2.正则取

  3.可视化提取

  4.tag 组合

  这四种方式是采集获取数据的四种常规方式,下面我会一一讲解。

  1、前后截取

  我们打开软件,继续上一节,点击采集content规则,显示如下:

  

  点击标题,弹出如下界面:

  

  可以看到我们选择了通过采集获取数据。这是标题。标题是文章的标题。我们要先在文章中找到这个标题,打开内容看看。看:

  

  

  我们打开源码,找出这个标题的位置。我们已经在文章以下地方发布了标题文字,如下:

  

  

  

  我们尽量选择带有标签的标签。这种类型的标签基本上用作标题标签。我们不会更改标题采集 的标题和结尾。我们默认测试一下:

  

  我们会发现他后面有_光光网这样的后缀。如果我们不想这样,我们可以在标题中添加文本替换:

  

  点击添加,选择内容替换如下操作:

  

  

  这样就成功了,测试图如下:

  

  我们的标题是成功的。

  如何使用内容的前后截取,其实和标题一样,先找到内容位置,然后再找到合适的前后截取位置。选择的前后截取位置的字符在文章中应该是唯一的,如下:

  

  先复制文章中的第一段,在源码中找到文章的开头:

  

  我们会发现

  这个代码段一般用作文章的开头,并且测试在源代码中是唯一的,所以可以作为文章的第一个拦截位置,同理找到结束拦截位置:

  

  这里我们可以在这两个位置之间进行选择。如果我们要带编辑器,我们会选择后者。如果我们不想带,我们就选择前者。这里我选择了前者。

  最后如下:

  

  

  这样我们就把内容采集好。对于作者,我们可以采集文中,也可以自己定义作者。文中第一个采集,我们可以用这段:

  

  

  

  我们可以用同样的方法来做时间和来源,这里就不演示了。您也可以自己添加相应的标签以匹配您的站点标签。这里的列是上一节中使用的组合标签的结果。

  

  您的赞赏是我坚持原创的动力

  共0人欣赏

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线