采集相关文章(增加新节点第二步、打开织梦后台点击采集——采集节点管理)

优采云发布时间: 2022-02-02 14:23

　　步骤/方法

　　第一步，我们打开织梦后台点击采集——采集节点管理——添加新节点

　　第二步，这里我们以采集普通文章为例，我们选择普通文章，然后确认

　　第三步，进入采集的设置页面，填写节点名，也就是给新节点起个名字，这里随便填。

　　步骤 4. 打开您想要采集的文章列表页面。（这里我们以这个网站为例打开这个页面，右键-查看源文件找到目标页面代码，就在charset后面）

　　第五步，填写页面的基本信息，填写后如图

　　第六步：填写列表URL，获取规则可以看到文章列表首页的地址。

　　比较第二页的地址

　　我们发现除了49_后面的数字之外它们是一样的，所以我们可以写

　　(\*).html

　　就是把1换成(*)，因为这里只有2页，所以我们填1到2的增量。当然每页都是1，2-1...等于1 .

　　到这里我们就完成了

　　可能你的一些采集列表没有规则，只能手动指定列表URL，如图

　　每行写一个页面地址

　　第七步，填写文章 URL匹配规则，回到文章列表页面

　　右键查看源文件，找到区域开头的HTML，也就是找到文章列表开头的标记。

　　我们可以很容易地找到图中的“新闻列表”。从这里开始，以下是文章列表

　　让我们在文章列表的末尾找到 HTML

　　就是这样，一个容易找到的标志

　　如果链接收录图像：

　　此处不要将采集处理为缩略图，根据自己的需要选择

　　第八步，再次过滤区域URL：

　　（使用正则表达式）必须收录：（优先级高于后者）

　　不能收录：打开源文件，我们可以清楚的看到文章链接都是以.html结尾的。因此，我们在必须收录的后面填写.html。如果有些列表比较麻烦，也可以在后面填写。不能收录

　　点击保存设置进入下一步，可以看到我们得到的文章 URL

　　看到这些都正确，我们保存信息，进入下一步设置内容字段获取规则

　　看看文章有没有分页，输入一篇文章文章就可以了。. 我们看到这里的文章没有分页

　　所以这里我们默认

　　我们现在找文章标题等，输入一个文章，右键查看源文件

　　看看这些

　　根据源码填写

　　第九步，如上填写文章内容的开始和结束，找到开始和结束标志。

　　开始部分如图

　　末端部分如图

　　填写最后一张图片

　　步骤 10. 在过滤规则中的文章中写下您要过滤的内容。比如要过滤文章中的图片，

　　选择常用规则，如图

　　再次查看IMG，如图

　　然后确认

　　这样，我们对文本中的图片进行过滤

　　第十一步，设置完成后，点击保存设置和预览，如图

　　这样的采集规则已经写好了。这很简单。有些网站很难写，但需要付出更多的努力。

　　我们点击保存开始采集——开始采集网页一会采集完成

　　查看我们的采集到文章

　　最后，导出数据

　　首先选择您要导入的列，然后在弹出的窗口中按“请选择”选择您要导入的列。发布选项通常是此处的默认选项，除非您不想立即发布。每批导入的默认值为30，修改与否无关紧要。附加选项通常是“排除重复标题”。至于自动生成HTML的选项，建议先不要生成，因为我们要批量提取摘要和关键词。

　　文章标题

　　匹配规则：[内容]

　　过滤规则：{dede:trimreplace=""}_XXX网站{/dede:trim}

0

2022-02-02

采集相关文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集相关文章(增加新节点第二步、打开织梦后台点击采集——采集节点管理)

0 个评论

发起人

AI时代内容工厂

采集相关文章(增加新节点第二步、打开织梦后台点击采集——采集节点管理)

0 个评论

发起人

相关问题