文章cms采集(织梦cms如何创建一个基本信息及索引页规则?)

优采云 发布时间: 2022-03-21 00:20

  文章cms采集(织梦cms如何创建一个基本信息及索引页规则?)

  Dede的功能如何使用cms采集---普通的文章不分页(一)?织梦cms在我们的网站建设常用的cms之一。但是由于一些众所周知的原因,dedecms经常会出现一些小bug,今天教大家如何解决“dedecms< @k11@ >函数使用方法---普通的文章(一))不用分页,如果使用“dedecms采集函数的方法在此描述文章--- 没有普通的文章(一)”带分页对你有帮助,记得在文末点赞哦!

  前言:这个文章是写给刚接触Dedecms采集功能的朋友。选择的目标站点是文章Dedecms官方网站dreameaver column文章,其内容页面不收录分页。它详细介绍了如何创建基本 采集 规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加新采集节点的第一步:设置基本信息和URL索引页面规则;第二部分,主要是引入新的采集节点的第二步:设置字段获取规则;第三节主要介绍采集如何指定节点以及如何导出采集内容。进入下面的第一部分。

  1.1进入采集节点管理界面

  如图1),在后台管理界面主菜单点击“采集”,再点击“采集节点管理”进入采集节点管理界面,如图(图2).

  图 1 - 后台管理界面

  图2-采集节点管理界面

  1.2. 添加新节点

  在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以输入“选择内容模型”界面,如(如图3),

  图 3 - 选择内容模型界面

  在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片采集”可供选择。根据页面类型为采集,选择对应的内容模型。本文选择“普通文章”,点击确定,即可进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如(图< @4) 显示,

  图4 - 添加采集节点:第一步设置基本信息和URL索引页面规则

  1.2.1 设置节点基本信息

  图 5 - 节点基本信息

  如图(图5),

  节点名称:给新创建的节点起一个名字,这里填写“采集test(一)”;

  目标页面编码:设置目标页面的编码格式为采集,有GB2312、UTF8和BIG5三种。可以通过在采集目标页面上右击选择“查看源代码”来获得。

  脚步:

  (a) 打开 采集: 所针对的目标页面;

  (b) 右击选择“查看源文件”找到“charset”,如图(图6),

  图 6 - 查看源文件

  等号后面的代码就是想要的“编码格式”,这里是“gb2312”。

  “区域匹配模式”:设置如何匹配想要的采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式了解更多,可以在此处选择正则表达式的模式。

  “内容导入顺序”:指定 文章 列表的导入顺序。可以选择“与目标站一致”或“与目标站相反”。

  “热链接模式”:目标站点 采集 没有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。

  “参考 URL”:填写将是 采集 的任何 文章 内容页面的 URL。

  具体步骤:

  (a) 在打开的文章列表页面,点击第一个文章

  标题为“在Dreamweaver中为插入的Flash添加透明度”打开文章内容页面如图(图7),

  图 7 - 文章 内容页面

  (b) 此时浏览器的URL地址栏中显示的URL就是“参考URL”处需要填写的URL,如图(图8),

  图 8 - 浏览器的 URL 地址栏

  至此,“节点基本信息”设置完毕。最终结果,如图(图9),

  图 9 - 设置后节点的基本信息

  检查后,进入下一步。

  1.2.2 设置列表URL获取规则

  如图(图10),

  图 10 - 列出 URL 获取规则

  下面是设置采集的文章列表页的匹配规则。如果采集的文章列表页有一定规则,可以选择“批量生成列表URL”;如果采集的文章列表页面完全没有规则可循,则可以选择“手动指定列表URL”;如果采集 提供的站点提供RSS,您可以选择“从RSS 获取”。对于特殊情况,例如:有些列表页面是规则的,而有些是不规则的,您可以在“匹配 URL”中填写规则部分,然后在“手动指定 URL”中填写不规则部分。

  具体步骤:

  (a) 首先,回到打开的文章列表页面,找到浏览器的URL地址栏中显示的URL(如图8)和页面底部的换页部分。对于示例(如图 11) 所示,

  图 11 - 页面提要

  (b) 点击“2”打开文章列表页的第二页。此时浏览器的URL地址栏显示的URL和页面底部的页面变化部分,如图12)和(如图13),

  图 12 - 第二页的 URL

  图 13 - 第二页的换页部分

  (c) 在打开的文章列表页面的第二页,点击(1)打开文章列表页面的首页,然后在底部的换页部分页面与下图11相同,但是浏览器的URL地址栏显示的URL和上图8不一样,如图(图14),

  图 14 - 第一个页面的 URL

  (d) 由(b)和(c)推断,这里采集的文章列表页的URL遵循的规则是:

  (*).html。为了安全起见,请为自己测试更多列表页面。规则确定后,在“匹配网址”中,填写规则后跟文章列表页。

  (e) 最后指定需要采集的页码或常规号,并设置其递增规律。

  至此,“List URL获取规则”部分就设置好了。最终结果,如图(图15),

  图 15 - 设置后的 URL 获取规则列表

  确认无误后,进行下一步。

  1.2.3设置文章网址匹配规则

  如图(图16),

  图 16 - 文章 URL 匹配规则

  下面是设置采集文章列表页的匹配规则。

  具体步骤:

  (a) 对于“区域开头的 HTML”,右键单击打开的 文章 列表的第一页并选择“查看源代码”。在源文件中找到第一个文章的标题“Adding Transparency to Inserted Flash in Dreamweaver”,如图(图17),

  图 17 - 查看源文件中第一个 文章 的标题

  通过观察,不难看出“

  ” 是整个 文章 列表的开头。因此,在“HTML开头区域”中,填写“

  ”。

  (b) 在源文件中找到最后一个文章标题“通过Dreamweaver设计网页时组织CSS的建议”,如图(图18),

  图 18 - 查看源文件中最后一个 文章 的标题

  结合 文章 列表的开头并观察第一个 "

  " 是整个 文章 列表的结尾。因此,在“HTML 结尾区域”中,应该用 "

  ”。

  “如果链接中收录图片”:设置对链接中收录的图片的处理方式。有不处理和 采集 是缩略图的选项。可根据实际需要选择。

  “重新过滤区域URL”:可以使用正则表达式重新过滤区域网站,对于一些需要保留或过滤掉的内容,特别是混合列表页面,使用“必须收录”或“不得收录”过滤掉您想要或不想获取的 文章 内容页面的 URL。

  具体步骤:

  回到打开文章列表首页的源文件,观察可以看出每个文章内容页面地址的扩展名都是.html。因此,在“必须收录”中,填写“.html”。

  至此,“文章URL匹配规则”就设置好了。最终结果,如图(图19),

  图 19 - 文章 设置后的 URL 匹配规则

  通过1.2.1小节、1.2.2小节和1.2.3小节,添加采集@的第一节> node 一步完成设置。设置后的结果,如图(图20),

  图20 - 设置后新增采集节点:第一步设置基本信息和URL索引页面规则

  全部完成并勾选后,点击“保存信息并进入下一步”。如果前面设置正确,点击后会进入“添加采集节点:测试URL索引页面规则设置的基本信息和URL获取规则测试”页面,看到对应的文章列表地址. 如图(图21),

  图 21 - URL 获取规则测试

  确认无误后,点击“保存信息并进入下一步”。否则,单击“返回上一步进行更改”。

  到这里,第一节就结束了。进入下面的第二部分。. .

  关于“dedecms采集函数的使用---普通文章(一)”不用分页,今天就给大家介绍一下。这些“dedecms采集函数在使用织梦dedecms仿建站时可以使用---普通的文章不分页(一)“知识!

  如果你觉得这篇文章对你有帮助,就给个赞吧!

  没有解决?点击这里呼唤大神帮忙(付费)!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线