文章cms采集(最新版的织梦5.7采集教程——dedecms采集教程)

优采云 发布时间: 2022-03-01 21:15

  文章cms采集(最新版的织梦5.7采集教程——dedecms采集教程)

  最新版织梦5.7采集tutorials - dedecms 采集tutorials - 织梦采集tutorials。一、创建采集首先我们打开织梦后台点击采集——采集节点管理——添加新节点这里我们使用采集普通文章比如我们选择普通的文章,然后确定我们已经进入了采集的设置页面,填写节点名,也就是给一个这个新节点的名字,你可以在这里填写。二、修改采集节点,然后打开你要采集的文章列表页面,这里我们以站长专区为例。目标节点:老班要采集是站长专区的HTML教程栏文章内容目标网址:每行写一个页面地址。开始编写文章 URL匹配规则,回到文章列表页面右键查看源文件找到区域开头的HTML,找文章@即可> 标记开始列表。我们可以很容易地找到“

  ” 。从这里开始,后面是 文章列表,我们将在其中找到文章列表末尾的 HTML 是 this,一个容易找到的标志。所以填写以下数据: 如果链接收录图像: 无处理 采集 作为缩略图。这里根据自己的需要选择区域URL再次过滤:必须收录:(优先级高于后者)(使用正则表达式)不能收录:打开源文件,可以很清楚的看到,文章@ > 链接都以.html结尾,所以我们在必须收录的后面填写.html。如果有些列表很麻烦,也可以填写以下不能收录的。我们点击保存设置进入下一步,可以看到我们获取的文章 URL是正确的,我们保存信息进入下一步。三、 设置内容字段获取规则,看文章是否有分页,直接进入我们来看一篇文章文章。我们看到这里的 文章 没有分页。所以这里我们已经默认我们现在正在寻找文章标题等随便输入一篇文章文章,右键查看源文件看到标题:开始文本:结束text: 所以匹配规则是:

  [内容]

  如果要过滤文章中的内容,写在过滤规则中。比如要过滤文章中的图片,选择常用规则,勾选IMG,然后确认。然后我们将过滤文本中的图片。设置好后,点击保存设置,预览这样一个采集规则就写好了,很简单。有些网站很难写,但需要多花点功夫。让我们点击保存并启动采集——启动采集网页一会儿采集完成。查看我们从 采集 收到的 文章 456,它似乎是成功的。让我们导出数据。首先选择要导入的栏目,在弹窗中按“请选择”选择要导入的项目。栏目发布选项这里一般默认,除非您不想立即发布。每批导入的默认值为30,不管是否修改,附件选项一般选择“排除重复标题”。至于自动生成HTML的选项,建议先不要生成,因为我们还是要批量提取摘要和关键词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线