我觉得这种采集技术写得很好. 让我们看一下.

优采云 发布时间: 2020-08-06 13:01

  设置列表采集规则相对简单. 获取列表的主要方法有三种: 批量生成列表URL,并通过系统自动生成批量地址列表. 手动指定列表URL和手动指定列表页面;从RSS Get,通过RSS文件获取列表页面. 例如,如果我们只需要采集一个列表页面,我们只需要采集: ,只要这10条内容,那么我们只需要在匹配的URL中填写此URL.

  如果我们采集多个列表的内容,则可以通过自动生成或指定多个列表页面来完成.

  让我们检查下一个列表页面,我们单击以下内容

  点击标签后,我们会在地址栏中看到地址:

  ...

  很容易发现,此URL列表中只有“ .html”前面的内容正在更改. 从2到10,让我们更改为1并尝试: 我们发现这是我们列的主页,因此我们可以自动指定A规则.

  单击匹配URL后面的“测试”按钮以查看并发现我们已成功获取此列表.

  或者我们选择手动指定,然后在URL列表中指定:

  当然,此列表部分的规则具有更*敏*感*词*,例如,您可以指定列表列的导入内容. 有关此部分的详细设置,请参阅Weaving Dream帮助中心:

  我们已经在此处设置了列表地址. 接下来,我们需要设置商品网址匹配规则. 此匹配规则使我们可以采集文章列表,并告诉服务器在哪里采集文章. 在采集此文章列表之前,让我们阅读一些收录文章列表的A页面.

  让我们看看这些列表的页面. 不变的部分是顶部的导航,右侧的推荐信息以及底部的内容. 主要更改是列表的标题和内容. 我们采集列表文章. 它是采集列表中文章标题的一部分. 如果我们了解HTML代码的观察,最直接的表现就是HTML代码的列表页面部分的内容已更改.

  因此,当指定集合列表页面时,我们只需要指定统一的规则,因为列表页面相同,因此此规则适用于所有列表页面. 当然,我们还将发现内容页面也是如此. 采集时,您只需指定统一规则即可采集所有相似页面的内容.

  当然,有一些网站列表链接到其他内容,因此您会遇到采集规则不匹配的问题. 通常,由于规则不适用,因此无法采集内容. 另一个性能是采集进度栏不会移动并终止. 在那里,有时甚至会报告错误. 这些原因的主要原因是规则与目标采集网站不匹配,因此在采集内容之前请确保规则的正确性.

  接下来,我们设置列表采集页面的采集规则. 我们首先查看源文件,右键单击IE浏览器,然后选择[查看源文件]打开列表页面的源代码.

  如果有DW,请将这些代码复制到DW,我们将找到该列表的位置:

  此列表的内容位于“

  “”也就是说,我们需要告诉服务器从此处采集列表的标题,然后直到采集该层的末尾为止,我们看到该层的末尾是“

  ”,在中间找不到相同的代码.

  我们需要在这里告诉大家的是我们的规则,告诉服务器起始HTML标记必须是唯一的,也就是说,您在此页面上仅具有此标记,以便计算机知道从何处开始. 这个地方结束了.

  在编写采集规则时,您将花费大量时间来查找唯一标识符. 使用这些标识符,服务器知道它可以捕获内容.

  我们现在已经达到了此列表的范围,在“

  ”和“

  ”,因此请填写采集规则的“该区域开头的HTML: ”和“该区域结尾的HTML: ”,然后服务器会将这两者之间的所有链接作为文章列表继续采集.

  但是有一个问题. 在我们的列表规则中,并非所有超链接都是该目标采集的所有文章. 例如,在我们采集的该页面中,除了这种文章页面之外,还存在一个注释页面,我们需要继续采集的页面是内容页面,因此我们需要过滤掉这些内容页面. 继续采集.

  有两种方法可以过滤这些页面上的梦境编织集合: 1.必须收录,这是所采集的超链接中必须收录的内容; 2.无法收录,所采集的地址中不能收录什么内容,因此我们通常使用以下两种方法之一. 通过观察我们可以看到,我们需要采集的内容页面的地址不收录“ feedback.php”,因此我们在这里使用dropback.php过滤所有超链接,其余就是我们的文章连接.

  还有缩略图处理. 我们可以使用默认值. 设置完成后,我们保存并测试是否可以采集内容.

  我们发现我们可以成功采集文章的标题列表信息:

  此时,我们的列表信息已采集. 接下来,我们将设置内容页面的采集规则. 此采集规则也与列表页面的采集规则非常相似. 主要功能是从重复的内容页面获得不同的内容. 内容,让我们在下面采集内容.

  我们首先打开文章的内容,然后将该网页的源代码复制到DW工具中进行查看:

  我们可以在此页面的源代码中看到“标题”和“文章内容”,然后我们将设置内容采集规则.

  在新版本的V5.3中,如果页面中收录关键字和摘要,则系统将自动采集它,即在页面代码中:

  这两个部分的内容将被自动采集. 当然,许多用户想要自己设置或生成,那么我们将在此处使用过滤规则来过滤自动采集的内容.

  我们在“关键字过滤内容”和“摘要过滤内容”中填写过滤规则:

  {dede: trim replace =“”}(. *){/ dede: trim}

  在这里我们讨论这个过滤规则,{dede: trim replace =“”}正则表达式{/ dede: trim},在{dede: trim}标签中间使用正则表达式来搜索采集的内容. 字符串,如果需要替换搜索到的内容,则需要指定replace属性.

  例如,如果我们在获取内容字段时只是将所有关键字替换为空,那么如果默认情况下指定了关键字,则可以这样编写:

  {dede: trim replace =“ DedeCMS,织梦,演示站”}(. *){/ dede: trim}

  由于我们主要在此处进行演示,因此我们采集了2个主要字段,一个是内容的标题,另一个是文章的内容,因此我们需要在两个地方制定匹配规则.

  我们设置了文章标题匹配规则,因为常规内容标题将出现在两个标签“”和“”之间,因此我们只需要将标题匹配规则设置为默认的“ [Content]”即可. 但是有一件事,让我们看一下采集的目标电台的标题:

  他在每个标题中都添加了“ _weaving dreams非官方演示站点”,因此我们需要在指定规则中删除这部分内容,只需简单地修改匹配规则,就将其修改为“ [content] _Dream Weaving Unofficial Demo”网站”,以便我们完成标题匹配规则的编译.

  匹配规则. 在匹配区域规则中,规则通常为“开头没有重复的HTML [内容]末尾没有重复的HTML”(正常匹配,非常规).

  接下来,我们为文章内容设置匹配规则. 该匹配规则有点类似于标题的匹配规则. 我们只需要找到唯一的HTML起始标签和HTML结束标签.

  我们与刚才指定的文章列表规则相同,找到的文章的内容收录在图层中”.

  ”和“

  “在这两层标记的中间,因此我们指定的匹配规则也相同. 我们根据上面的匹配规则的定义设置以下匹配规则:

  [内容]

  当然,采集的内容中会有一些不希望的超链接. 这时,我们需要清除这些内容,并且需要使用过滤规则. 该过滤规则与现在的过滤规则相同,但是系统附带了一些常用规则和规则,让我们来看一下:

  设置过滤规则后,它将在集合中产生不同的效果.

  当然,这里需要在“内容采集”部分中说明一些小选项,其中一个是“分页内容”字段,仅当您正在采集多页内容时才显示此内容,您需要设置从标签的开头和结尾开始设置分页集合,设置方法和匹配规则是相同的.

  下载字段中的多媒体资源. 这是采集过程中某些多媒体领域的附件. 通常,仅支持某些图片和一些Flash下载. 如果无法采集许多图片,则可能是服务器造成的. ,或者本地服务器不支持它,或者另一方的服务器已采取措施防止采集.

  自定义处理界面,这主要是通过一些功能来处理网页的内容,我们可以设置一个简单的自定义处理界面,因为采集的内容可能收录HTML代码,那么我们将采集的内容全部转换为txt文本,您可以在其中使用自定义处理界面,我们将内容设置如下:

  @ me = html2text(@me);

  所以我们可以保存采集规则,到目前为止,我们已经完成了规则编写部分,然后开始采集内容:

  接下来,我们开始采集节点的内容

<p>采集完成后,我们导入到相应的列. 如果我们之前设置了导出列,则可以检查: 使用采集规则中指定的列ID(如果目标列ID为0,则使用上面选择的列),设置后,可以将其导入到列中

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线