楚截图和文字分不清楚,因此用粉色背景来区分

优采云 发布时间: 2021-05-28 02:02

  楚截图和文字分不清楚,因此用粉色背景来区分

  Chu和文本的屏幕截图不清楚,因此使用粉红色背景来区分它们。

  第一步是确定采集的网站(我们以DEDE的官方电台为采集电台作为演示)

  第二步是确定采集电台的代码。打开采集网页后,查看源代码(即:查看->源代码)

  织梦 Dede cms 采集规则教程

  在两者之间找到字符集,稍后将显示网页的编码,屏幕截图为“ gb2312”

  第三步,采集编写列表获取规则

  [var:分页符]

  文章必须收录URL,不能收录URL。通常不需要编写这两个。当采集列表中有许多不必要的链接时,它们用于过滤。

  如果只有一个列表页面,则可以将URL直接写在源URL中。

  注意这里,最重要的是这里。

  以下是“ 采集获取文章列表规则编写”,

  这是上面打开的采集页面的源代码文件。在找到文章列表之前,没有与该页面相同的其他代码。

  Dede cms官方网站上列表页面文章之前和之后的页面最接近,并且与“

  不同

  ”和“”,分别编写“开始HTML”和“结束HTML”,请参见屏幕截图以了解编写方法

  第四步,采集 文章标题,文章内容,文章作者,文章来源和其他规则,分页采集等。

  有关“开始HTML”和“结束HTML”的编写,请参考第三步中的“获取文章列表的规则”。

  以下是如何采集分页内容。查看屏幕快照中的圆圈区域。截图

  是否对文档进行了分页,请选择“所有分页列表”

  有关“开始HTML”和“结束HTML”的编写,请参考第三步中的“获取文章列表的规则”。

  当然,以上内容不能用于带有视频的采集,因为它已被过滤,接下来的四行用于过滤视频。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线