楚截图和文字分不清楚，因此用粉色背景来区分

优采云发布时间: 2021-05-28 02:02

　　Chu和文本的屏幕截图不清楚，因此使用粉红色背景来区分它们。

　　第一步是确定采集的网站（我们以DEDE的官方电台为采集电台作为演示）

　　第二步是确定采集电台的代码。打开采集网页后，查看源代码（即：查看->源代码）

　　织梦 Dede cms 采集规则教程

　　在两者之间找到字符集，稍后将显示网页的编码，屏幕截图为“ gb2312”

　　第三步，采集编写列表获取规则

　　[var：分页符]

　　文章必须收录URL，不能收录URL。通常不需要编写这两个。当采集列表中有许多不必要的链接时，它们用于过滤。

　　如果只有一个列表页面，则可以将URL直接写在源URL中。

　　注意这里，最重要的是这里。

　　以下是“ 采集获取文章列表规则编写”，

　　这是上面打开的采集页面的源代码文件。在找到文章列表之前，没有与该页面相同的其他代码。

　　Dede cms官方网站上列表页面文章之前和之后的页面最接近，并且与“

　　不同

　　”和“”，分别编写“开始HTML”和“结束HTML”，请参见屏幕截图以了解编写方法

　　第四步，采集文章标题，文章内容，文章作者，文章来源和其他规则，分页采集等。

　　有关“开始HTML”和“结束HTML”的编写，请参考第三步中的“获取文章列表的规则”。

　　以下是如何采集分页内容。查看屏幕快照中的圆圈区域。截图

　　是否对文档进行了分页，请选择“所有分页列表”

　　有关“开始HTML”和“结束HTML”的编写，请参考第三步中的“获取文章列表的规则”。

　　当然，以上内容不能用于带有视频的采集，因为它已被过滤，接下来的四行用于过滤视频。

0

2021-05-28

文章采集规则

0 个评论

要回复文章请先登录或注册