采集规则 采集 data-src(如何对网站采集的内容进行一些批量管理?(图))

优采云 发布时间: 2022-04-05 03:09

  采集规则 采集 data-src(如何对网站采集的内容进行一些批量管理?(图))

  采集指采集和记录有明确方向和明确目的的写作材料的活动。主要是指调查访谈和信息的获取和采集。采集主要作用是获取用于写作、分析和报告的直接和间接材料。今天我们说的采集主要是指网站采集,网站采集的概念主要是:程序获取其他网站的一种方式数据,另一种简单的说法是程序化、系统化、自动化、智能化 CTRL+C CTRL+V

  Dedecms在早期就加入了采集这个功能。以前我们一般都是通过复制粘贴编辑再发布来添加网站的内容,这样对于少量的文章还是可以的,但是如果没有新站点的内容,那么就需要复制粘贴很多文章,这是一个重复又枯燥的过程,采集的内容就是为了解决这个问题,把这个重复的操作简化成规则,通过进行批量操作规则。

  当然,采集也可以通过一些特殊的采集器采集来进行,国内比较有名的采集器就是优采云。

  今天,我们将使用Dedecms程序的采集函数来讲解采集的使用方法,以及如何批量管理采集的内容。

  首先我们进入系统后台,打开[采集]-[采集节点管理],在学习使用这个采集功能之前先介绍一些基本的技术知识。

  首先,我们需要了解 HTML 的基本内容。我们知道,浏览器中显示的各种页面,其实都是由最基本的 HTML 组成的。我们可以在我们的 Dedecms 系统后台发布一个内容,然后对上面的内容做一些格式化。

  也就是说,我们的页面是在浏览器解析HTML代码后显示的。这些基本的HTML代码是给机器看的,解析出来的内容是给我们的用户看的。机器实际上是一个死的东西。,他不像用户那样看网页,直接看到某个部分的内容,机器能看到的就是某个部分的代码。

  比如我们查看一个网页:/791.html,我们可以很容易的看到这个文档的内容,如*敏*感*词*区域所示。

  我们的电脑看不到。他只是判断显示的内容。他只解析代码。我们右键查看这个文件的源文件。

  机器读取这些代码的内容,他只能在以下地方看懂这部分内容:

  也就是说,如果我们需要采集这些内容,我们需要告诉机器你应该从哪段代码开始,从哪里结束,中间部分就是我们需要的内容,然后自动添加这些内容到数据库来吧,省去添加内容的无聊。

  这里我们讲采集中的一个概念:rules,rules简单来说就是我们告诉计算机要做什么,比如采集的内容,我们告诉计算机代码从哪里开始,在哪里本地代码的结尾,这些内容是一个规则。在Dedecms程序中,我们需要涉及两个局部规则,1.列出规则;2. 内容规则。

  列表规则:告诉计算机你去采集文章哪些文章,这些文章列表以什么HTML代码开始和结束;

  内容规则:告诉计算机采集是哪一部分内容,文档内容从什么HTML代码开始,以什么HTML代码结束;

  我们说学会使用采集函数,其中最重要的就是学会制定采集的规则。有了这些规则,采集其实是一件很简单的事情。

  采集的一般步骤如下:

  1. 制定列表采集规则,这里的设置主要告诉服务器你采集有什么内容,一般是采集网站的列表页面;

<p>2.制定内容采集规则:这里告诉服务器你的采集页面的内容在页面的哪个部分,一般是采集

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线