楚截图和文字分不清楚,因此用粉色背景来区分
优采云 发布时间: 2021-05-28 02:02楚截图和文字分不清楚,因此用粉色背景来区分
Chu和文本的屏幕截图不清楚,因此使用粉红色背景来区分它们。
第一步是确定采集的网站(我们以DEDE的官方电台为采集电台作为演示)
第二步是确定采集电台的代码。打开采集网页后,查看源代码(即:查看->源代码)
织梦 Dede cms 采集规则教程
在两者之间找到字符集,稍后将显示网页的编码,屏幕截图为“ gb2312”
第三步,采集编写列表获取规则
[var:分页符]
文章必须收录URL,不能收录URL。通常不需要编写这两个。当采集列表中有许多不必要的链接时,它们用于过滤。
如果只有一个列表页面,则可以将URL直接写在源URL中。
注意这里,最重要的是这里。
以下是“ 采集获取文章列表规则编写”,
这是上面打开的采集页面的源代码文件。在找到文章列表之前,没有与该页面相同的其他代码。
Dede cms官方网站上列表页面文章之前和之后的页面最接近,并且与“
不同
”和“”,分别编写“开始HTML”和“结束HTML”,请参见屏幕截图以了解编写方法
第四步,采集 文章标题,文章内容,文章作者,文章来源和其他规则,分页采集等。
有关“开始HTML”和“结束HTML”的编写,请参考第三步中的“获取文章列表的规则”。
以下是如何采集分页内容。查看屏幕快照中的圆圈区域。截图
是否对文档进行了分页,请选择“所有分页列表”
有关“开始HTML”和“结束HTML”的编写,请参考第三步中的“获取文章列表的规则”。
当然,以上内容不能用于带有视频的采集,因为它已被过滤,接下来的四行用于过滤视频。