采集相关文章(增加新节点第二步、打开织梦后台点击采集——采集节点管理)

优采云 发布时间: 2022-02-02 14:23

  采集相关文章(增加新节点第二步、打开织梦后台点击采集——采集节点管理)

  步骤/方法

  第一步,我们打开织梦后台点击采集——采集节点管理——添加新节点

  第二步,这里我们以采集普通文章为例,我们选择普通文章,然后确认

  第三步,进入采集的设置页面,填写节点名,也就是给新节点起个名字,这里随便填。

  步骤 4. 打开您想要 采集 的 文章 列表页面。(这里我们以这个网站为例打开这个页面,右键-查看源文件找到目标页面代码,就在charset后面)

  第五步,填写页面的基本信息,填写后如图

  第六步:填写列表URL,获取规则可以看到文章列表首页的地址。

  比较第二页的地址

  我们发现除了49_后面的数字之外它们是一样的,所以我们可以写

  (\*).html

  就是把1换成(*),因为这里只有2页,所以我们填1到2的增量。当然每页都是1,2-1...等于1 .

  到这里我们就完成了

  可能你的一些采集列表没有规则,只能手动指定列表URL,如图

  每行写一个页面地址

  第七步,填写文章 URL匹配规则,回到文章列表页面

  右键查看源文件,找到区域开头的HTML,也就是找到文章列表开头的标记。

  我们可以很容易地找到图中的“新闻列表”。从这里开始,以下是 文章 列表

  让我们在 文章 列表的末尾找到 HTML

  就是这样,一个容易找到的标志

  如果链接收录图像:

  此处不要将采集处理为缩略图,根据自己的需要选择

  第八步,再次过滤区域URL:

  (使用正则表达式)必须收录:(优先级高于后者)

  不能收录:打开源文件,我们可以清楚的看到文章链接都是以.html结尾的。因此,我们在必须收录的后面填写.html。如果有些列表比较麻烦,也可以在后面填写。不能收录

  点击保存设置进入下一步,可以看到我们得到的文章 URL

  看到这些都正确,我们保存信息,进入下一步设置内容字段获取规则

  看看文章有没有分页,输入一篇文章文章就可以了。. 我们看到这里的 文章 没有分页

  所以这里我们默认

  我们现在找文章标题等,输入一个文章,右键查看源文件

  看看这些

  根据源码填写

  第九步,如上填写文章内容的开始和结束,找到开始和结束标志。

  开始部分如图

  末端部分如图

  填写最后一张图片

  步骤 10. 在过滤规则中的 文章 中写下您要过滤的内容。比如要过滤文章中的图片,

  选择常用规则,如图

  再次查看IMG,如图

  然后确认

  这样,我们对文本中的图片进行过滤

  第十一步,设置完成后,点击保存设置和预览,如图

  这样的采集 规则已经写好了。这很简单。有些网站很难写,但需要付出更多的努力。

  我们点击保存开始采集——开始采集网页一会采集完成

  查看我们的 采集 到 文章

  最后,导出数据

  首先选择您要导入的列,然后在弹出的窗口中按“请选择”选择您要导入的列。发布选项通常是此处的默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否无关紧要。附加选项通常是“排除重复标题”。至于自动生成HTML的选项,建议先不要生成,因为我们要批量提取摘要和关键词

  文章标题

  匹配规则:[内容]

  过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线