文章cms采集( 最新版的织梦57采集教程dedecms采集教程采集)

优采云 发布时间: 2022-02-08 03:15

  文章cms采集(

最新版的织梦57采集教程dedecms采集教程采集)

  

  最新版织梦57采集教程dedecms采集教程织梦采集教程一创采集先打开< @织梦后台点击采集采集节点管理添加新节点这里我们以采集普通文章为例,我们选择普通文章和然后确定我们已经输入了采集@的设置页面填写节点名>就是给新节点起一个名字。这里可以填写修改采集节点,打开你想要的文章列表页面采集这里我们以站长专区为例。目标节点老类要采集是站长专区的HTML教程栏文章。代码就在字符集后面。页面的基本信息一般会被忽略。如图所示填写。现在让我们填写列表 URL 并获取规则以查看 文章 列表 httpwwwzzareacomhtmllist_22_2 的第二页的地址

  

  html对比第三页的地址 httpwwwzzareacomhtmllist_22_3html 我们发现除了22_后面的数字之外都是一样的,所以我们可以写httpwwwzzareacomhtmllist_22_html就是把1换成因为这里只有2页所以我们从1到2各填当然,页面增量是1。2-1等于1。到这里我们就填完了。可能你的一些采集列表没有规则,只能手动指定列表URL。如图,每行写一个页地址。我们开始编写 文章 URL 匹配规则。回到文章列表页面,右键查看源文件。在该区域的开头找到 HTML 并在 文章 列表的开头查找符号。我们可以很容易地找到它,如图所示。"中的 divclass

  

  最后的 HTML 是这样的。这是一个容易找到的标志,因此请填写以下数据。如果链接中收录图片,则不会进行处理。水平高于后者。它不能被包括在内。打开源文件。可以清楚的看到文章链接都是以html结尾的,所以我们在必须收录的后面填写html。我们点击保存设置进入下一步,可以看到我们得到的文章 URL。这些都是正确的。我们保存信息并进入下一步。三、设置内容字段获取规则,查看文章是否有分页,随便进入。一篇文章文章看我们这里看到的文章,没有分页,所以这里我们默认查看源文件看到header body start body end 所以匹配规则是tablewidth"1

  

  除非您不想立即发布该选项,否则通常选择排除重复标题。至于自动生成HTML的选项,建议不要先生成,因为我们要批量提取摘要和关键词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线