文章cms采集(织梦cms如何创建一个基本信息及索引页规则?)
优采云 发布时间: 2022-03-21 00:20文章cms采集(织梦cms如何创建一个基本信息及索引页规则?)
Dede的功能如何使用cms采集---普通的文章不分页(一)?织梦cms在我们的网站建设常用的cms之一。但是由于一些众所周知的原因,dedecms经常会出现一些小bug,今天教大家如何解决“dedecms< @k11@ >函数使用方法---普通的文章(一))不用分页,如果使用“dedecms采集函数的方法在此描述文章--- 没有普通的文章(一)”带分页对你有帮助,记得在文末点赞哦!
前言:这个文章是写给刚接触Dedecms采集功能的朋友。选择的目标站点是文章Dedecms官方网站dreameaver column文章,其内容页面不收录分页。它详细介绍了如何创建基本 采集 规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加新采集节点的第一步:设置基本信息和URL索引页面规则;第二部分,主要是引入新的采集节点的第二步:设置字段获取规则;第三节主要介绍采集如何指定节点以及如何导出采集内容。进入下面的第一部分。
1.1进入采集节点管理界面
如图1),在后台管理界面主菜单点击“采集”,再点击“采集节点管理”进入采集节点管理界面,如图(图2).
图 1 - 后台管理界面
图2-采集节点管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以输入“选择内容模型”界面,如(如图3),
图 3 - 选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片采集”可供选择。根据页面类型为采集,选择对应的内容模型。本文选择“普通文章”,点击确定,即可进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如(图< @4) 显示,
图4 - 添加采集节点:第一步设置基本信息和URL索引页面规则
1.2.1 设置节点基本信息
图 5 - 节点基本信息
如图(图5),
节点名称:给新创建的节点起一个名字,这里填写“采集test(一)”;
目标页面编码:设置目标页面的编码格式为采集,有GB2312、UTF8和BIG5三种。可以通过在采集目标页面上右击选择“查看源代码”来获得。
脚步:
(a) 打开 采集: 所针对的目标页面;
(b) 右击选择“查看源文件”找到“charset”,如图(图6),
图 6 - 查看源文件
等号后面的代码就是想要的“编码格式”,这里是“gb2312”。
“区域匹配模式”:设置如何匹配想要的采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式了解更多,可以在此处选择正则表达式的模式。
“内容导入顺序”:指定 文章 列表的导入顺序。可以选择“与目标站一致”或“与目标站相反”。
“热链接模式”:目标站点 采集 没有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。
“参考 URL”:填写将是 采集 的任何 文章 内容页面的 URL。
具体步骤:
(a) 在打开的文章列表页面,点击第一个文章
标题为“在Dreamweaver中为插入的Flash添加透明度”打开文章内容页面如图(图7),
图 7 - 文章 内容页面
(b) 此时浏览器的URL地址栏中显示的URL就是“参考URL”处需要填写的URL,如图(图8),
图 8 - 浏览器的 URL 地址栏
至此,“节点基本信息”设置完毕。最终结果,如图(图9),
图 9 - 设置后节点的基本信息
检查后,进入下一步。
1.2.2 设置列表URL获取规则
如图(图10),
图 10 - 列出 URL 获取规则
下面是设置采集的文章列表页的匹配规则。如果采集的文章列表页有一定规则,可以选择“批量生成列表URL”;如果采集的文章列表页面完全没有规则可循,则可以选择“手动指定列表URL”;如果采集 提供的站点提供RSS,您可以选择“从RSS 获取”。对于特殊情况,例如:有些列表页面是规则的,而有些是不规则的,您可以在“匹配 URL”中填写规则部分,然后在“手动指定 URL”中填写不规则部分。
具体步骤:
(a) 首先,回到打开的文章列表页面,找到浏览器的URL地址栏中显示的URL(如图8)和页面底部的换页部分。对于示例(如图 11) 所示,
图 11 - 页面提要
(b) 点击“2”打开文章列表页的第二页。此时浏览器的URL地址栏显示的URL和页面底部的页面变化部分,如图12)和(如图13),
图 12 - 第二页的 URL
图 13 - 第二页的换页部分
(c) 在打开的文章列表页面的第二页,点击(1)打开文章列表页面的首页,然后在底部的换页部分页面与下图11相同,但是浏览器的URL地址栏显示的URL和上图8不一样,如图(图14),
图 14 - 第一个页面的 URL
(d) 由(b)和(c)推断,这里采集的文章列表页的URL遵循的规则是:
(*).html。为了安全起见,请为自己测试更多列表页面。规则确定后,在“匹配网址”中,填写规则后跟文章列表页。
(e) 最后指定需要采集的页码或常规号,并设置其递增规律。
至此,“List URL获取规则”部分就设置好了。最终结果,如图(图15),
图 15 - 设置后的 URL 获取规则列表
确认无误后,进行下一步。
1.2.3设置文章网址匹配规则
如图(图16),
图 16 - 文章 URL 匹配规则
下面是设置采集文章列表页的匹配规则。
具体步骤:
(a) 对于“区域开头的 HTML”,右键单击打开的 文章 列表的第一页并选择“查看源代码”。在源文件中找到第一个文章的标题“Adding Transparency to Inserted Flash in Dreamweaver”,如图(图17),
图 17 - 查看源文件中第一个 文章 的标题
通过观察,不难看出“
” 是整个 文章 列表的开头。因此,在“HTML开头区域”中,填写“
”。
(b) 在源文件中找到最后一个文章标题“通过Dreamweaver设计网页时组织CSS的建议”,如图(图18),
图 18 - 查看源文件中最后一个 文章 的标题
结合 文章 列表的开头并观察第一个 "
" 是整个 文章 列表的结尾。因此,在“HTML 结尾区域”中,应该用 "
”。
“如果链接中收录图片”:设置对链接中收录的图片的处理方式。有不处理和 采集 是缩略图的选项。可根据实际需要选择。
“重新过滤区域URL”:可以使用正则表达式重新过滤区域网站,对于一些需要保留或过滤掉的内容,特别是混合列表页面,使用“必须收录”或“不得收录”过滤掉您想要或不想获取的 文章 内容页面的 URL。
具体步骤:
回到打开文章列表首页的源文件,观察可以看出每个文章内容页面地址的扩展名都是.html。因此,在“必须收录”中,填写“.html”。
至此,“文章URL匹配规则”就设置好了。最终结果,如图(图19),
图 19 - 文章 设置后的 URL 匹配规则
通过1.2.1小节、1.2.2小节和1.2.3小节,添加采集@的第一节> node 一步完成设置。设置后的结果,如图(图20),
图20 - 设置后新增采集节点:第一步设置基本信息和URL索引页面规则
全部完成并勾选后,点击“保存信息并进入下一步”。如果前面设置正确,点击后会进入“添加采集节点:测试URL索引页面规则设置的基本信息和URL获取规则测试”页面,看到对应的文章列表地址. 如图(图21),
图 21 - URL 获取规则测试
确认无误后,点击“保存信息并进入下一步”。否则,单击“返回上一步进行更改”。
到这里,第一节就结束了。进入下面的第二部分。. .
关于“dedecms采集函数的使用---普通文章(一)”不用分页,今天就给大家介绍一下。这些“dedecms采集函数在使用织梦dedecms仿建站时可以使用---普通的文章不分页(一)“知识!
如果你觉得这篇文章对你有帮助,就给个赞吧!
没有解决?点击这里呼唤大神帮忙(付费)!