前两章如何对内容数据的采集的四种常规方式

优采云发布时间: 2021-08-06 23:13

　　大家好，我是教程的主人。通过前两章的学习，你应该已经掌握了如何获取内容页面的URL。本章从采集和文章内容的处理开始。本节主要介绍如何采集内容数据，使用以下四种方法：

　　1.前后截取2.正则取

　　3.可视化提取

　　4.tag 组合

　　这四种方式是采集获取数据的四种常规方式，下面我会一一讲解。

　　1、前后截取

　　我们打开软件，继续上一节，点击采集content规则，显示如下：

　　点击标题，弹出如下界面：

　　可以看到我们选择了通过采集获取数据。这是标题。标题是文章的标题。我们要先在文章中找到这个标题，打开内容看看。看：

　　我们打开源码，找出这个标题的位置。我们已经在文章以下地方发布了标题文字，如下：

　　我们尽量选择带有标签的标签。这种类型的标签基本上用作标题标签。我们不会更改标题采集的标题和结尾。我们默认测试一下：

　　我们会发现他后面有_光光网这样的后缀。如果我们不想这样，我们可以在标题中添加文本替换：

　　点击添加，选择内容替换如下操作：

　　这样就成功了，测试图如下：

　　我们的标题是成功的。

　　如何使用内容的前后截取，其实和标题一样，先找到内容位置，然后再找到合适的前后截取位置。选择的前后截取位置的字符在文章中应该是唯一的，如下：

　　先复制文章中的第一段，在源码中找到文章的开头：

　　我们会发现

　　这个代码段一般用作文章的开头，并且测试在源代码中是唯一的，所以可以作为文章的第一个拦截位置，同理找到结束拦截位置：

　　这里我们可以在这两个位置之间进行选择。如果我们要带编辑器，我们会选择后者。如果我们不想带，我们就选择前者。这里我选择了前者。

　　最后如下：

　　这样我们就把内容采集好。对于作者，我们可以采集文中，也可以自己定义作者。文中第一个采集，我们可以用这段：

　　我们可以用同样的方法来做时间和来源，这里就不演示了。您也可以自己添加相应的标签以匹配您的站点标签。这里的列是上一节中使用的组合标签的结果。

　　您的赞赏是我坚持原创的动力

　　共0人欣赏

0

2021-08-06

内容采集

0 个评论

要回复文章请先登录或注册