文章采集功能(Dedecms采集功能的使用方法——不含分页的普通文章)
优采云 发布时间: 2022-04-04 01:03文章采集功能(Dedecms采集功能的使用方法——不含分页的普通文章)
Dedecms采集的功能如何使用——普通文章(一)不分页
1.1进入采集节点管理界面
如图1),在后台管理界面主菜单点击“采集”,再点击“采集节点管理”进入采集节点管理界面,如图(图2).
图 1 - 后台管理界面
图2-采集节点管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以输入“选择内容模型”界面,如(如图3),
图 3 - 选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片采集”可供选择。根据页面类型为采集,选择对应的内容模型。本文选择“普通文章”点击确定,进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图4) 显示,
图4 - 添加采集节点:第一步设置基本信息和URL索引页面规则
1.2.1 设置节点基本信息
图 5 - 节点基本信息
如图(图5),
节点名称:给新创建的节点起一个名字,这里填写“采集test(一)”;
目标页面编码:设置目标页面的编码格式为采集,有GB2312、UTF8和BIG5三种。可以通过在采集目标页面上右击选择“查看源代码”来获得。
脚步:
(b) 右击选择“查看源文件”,找到“charset”,如图(图6),
图 6 - 查看源文件
等号后面的代码就是想要的“编码格式”,这里是“gb2312”。
“区域匹配模式”:设置如何匹配想要的采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式了解更多,可以在此处选择正则表达式的模式。
“内容导入顺序”:指定 文章 列表的导入顺序。可以选择“与目标站一致”或“与目标站相反”。
“热链接模式”:目标站点 采集 没有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。
“参考 URL”:填写将是 采集 的任何 文章 内容页面的 URL。
具体步骤:
(a) 在打开的文章列表页面,点击第一个文章
图 7 - 文章 内容页面
(b) 此时浏览器的URL地址栏显示的URL就是“参考URL”处需要填写的URL,如图(图8),
图 8 - 浏览器的 URL 地址栏
至此,“节点基本信息”设置完毕。最终结果,如图(图9),
图 9 - 设置后节点的基本信息
检查后,进入下一步。
1.2.2 设置列表URL获取规则
如图(图10),
图 10 - 列出 URL 获取规则
下面是设置采集的文章列表页的匹配规则。如果采集的文章列表页有一定规则,可以选择“批量生成列表URL”;如果采集的文章列表页面完全没有规则可循,则可以选择“手动指定列表URL”;如果采集 提供的站点提供RSS,您可以选择“从RSS 获取”。对于特殊情况,例如:有些列表页面是规则的,而有些是不规则的,您可以在“匹配 URL”中填写规则部分,然后在“手动指定 URL”中填写不规则部分。
具体步骤:
(a) 首先,回到打开的文章列表页面,找到浏览器的URL地址栏中显示的URL(如图8)和页面底部的换页部分。对于示例(如图 11) 所示,
图 11 - 页面提要
(b) 点击“2”打开文章列表页的第二页。此时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分,如图12)和(如图13) ,
图 12 - 第二页的 URL
图 13 - 第二页的换页部分
(c) 在打开的文章列表页的第二页,点击(1),打开文章列表页的第一页。此时,换页部分在页面底部与下图11相同,但是浏览器的URL地址栏中显示的URL与上图8不一样,如图(图14),
图 14 - 第一个页面的 URL
(d) 由(b)和(c)推断,这里采集的文章列表页的URL遵循的规则是:
(e) 最后指定需要采集的页码或常规号,并设置其递增规律。
至此,“List URL获取规则”部分就设置好了。最终结果,如图(图15),
图 15 - 设置后的 URL 获取规则列表
确认无误后,进行下一步。
1.2.3设置文章网址匹配规则
如图(图16),
图 16 - 文章 URL 匹配规则
下面是设置采集文章列表页的匹配规则。
具体步骤:
(a) 对于“区域开头的HTML”,可以在打开的文章列表的第一页上右击,选择“查看源代码”。在源文件中,找到第一个文章的标题“在Dreamweaver中为插入的Flash添加透明度”,如图(图17),
图 17 - 查看源文件中第一个 文章 的标题
通过观察,不难看出“
” 是整个 文章 列表的开头。因此,在“HTML开头区域”中,填写“
”。
(b) 在源文件中找到最后一个文章标题“通过Dreamweaver设计网页时组织CSS的建议”,如图(图18),
图 18 - 查看源文件中最后一个 文章 的标题
结合 文章 列表的开头并观察第一个 "
" 是整个 文章 列表的结尾。因此,在“HTML 结尾区域”中,应该用 "
”。
“如果链接中收录图片”:设置对链接中收录的图片的处理方式。有不处理和 采集 是缩略图的选项。可根据实际需要选择。
“重新过滤区域URL”:可以使用正则表达式重新过滤区域网站,对于一些需要保留或过滤掉的内容,特别是混合列表页面,使用“必须收录”或“不得收录”以过滤出您想要或不想获取的 文章 内容页面的 URL。
具体步骤:
回到打开文章列表首页的源文件,观察可以看出每个文章内容页面地址的扩展名都是.html。因此,在“必须收录”中,填写“.html”。
至此,“文章URL匹配规则”就设置好了。最终结果,如图(图19),
图 19 - 文章 设置后的 URL 匹配规则
通过1.2.1小节、1.2.2小节和1.2.3小节,添加采集@的第一节> node 一步完成设置。设置后的结果,如图(图20),
图20 - 设置后新增采集节点:第一步设置基本信息和URL索引页面规则
全部完成并勾选后,点击“保存信息并进入下一步”。如果前面设置正确,点击后会进入“添加采集节点:测试URL索引页面规则设置的基本信息和URL获取规则测试”页面,看到对应的文章列表地址. 如图(图21),
图 21 - URL 获取规则测试
确认无误后,点击“保存信息并进入下一步”。否则,单击“返回上一步进行更改”。
到这里,第一节就结束了。进入下面的第二部分。. .