文章采集功能(Dedecms采集功能的使用方法——不含分页的普通文章)

优采云发布时间: 2022-04-04 01:03

　　Dedecms采集的功能如何使用——普通文章(一)不分页

　　1.1进入采集节点管理界面

　　如图1)，在后台管理界面主菜单点击“采集”，再点击“采集节点管理”进入采集节点管理界面，如图（图2).

　　图 1 - 后台管理界面

　　图2-采集节点管理界面

　　1.2. 添加新节点

　　在采集节点管理界面，点击左下角“添加新节点”或右上角“添加新节点”（如图2)，可以输入“选择内容模型”界面，如（如图3)，

　　图 3 - 选择内容模型界面

　　在“选择内容模型”界面的下拉列表框中，有“普通文章”和“图片采集”可供选择。根据页面类型为采集，选择对应的内容模型。本文选择“普通文章”点击确定，进入“添加采集节点：第一步设置基本信息和URL索引页面规则”界面，如图（图4) 显示，

　　图4 - 添加采集节点：第一步设置基本信息和URL索引页面规则

　　1.2.1 设置节点基本信息

　　图 5 - 节点基本信息

　　如图（图5)，

　　节点名称：给新创建的节点起一个名字，这里填写“采集test(一)”；

　　目标页面编码：设置目标页面的编码格式为采集，有GB2312、UTF8和BIG5三种。可以通过在采集目标页面上右击选择“查看源代码”来获得。

　　脚步：

　　(b) 右击选择“查看源文件”，找到“charset”，如图（图6)，

　　图 6 - 查看源文件

　　等号后面的代码就是想要的“编码格式”，这里是“gb2312”。

　　“区域匹配模式”：设置如何匹配想要的采集的内容部分，可以是字符串，也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式了解更多，可以在此处选择正则表达式的模式。

　　“内容导入顺序”：指定文章列表的导入顺序。可以选择“与目标站一致”或“与目标站相反”。

　　“热链接模式”：目标站点采集没有刷新限制。一开始很难说，你需要测试才能知道。如果是这样，您需要在此处设置“资源下载超时时间”。

　　“参考 URL”：填写将是采集的任何文章内容页面的 URL。

　　具体步骤：

　　(a) 在打开的文章列表页面，点击第一个文章

　　图 7 - 文章内容页面

　　(b) 此时浏览器的URL地址栏显示的URL就是“参考URL”处需要填写的URL，如图（图8)，

　　图 8 - 浏览器的 URL 地址栏

　　至此，“节点基本信息”设置完毕。最终结果，如图（图9)，

　　图 9 - 设置后节点的基本信息

　　检查后，进入下一步。

　　1.2.2 设置列表URL获取规则

　　如图（图10)，

　　图 10 - 列出 URL 获取规则

　　下面是设置采集的文章列表页的匹配规则。如果采集的文章列表页有一定规则，可以选择“批量生成列表URL”；如果采集的文章列表页面完全没有规则可循，则可以选择“手动指定列表URL”；如果采集提供的站点提供RSS，您可以选择“从RSS 获取”。对于特殊情况，例如：有些列表页面是规则的，而有些是不规则的，您可以在“匹配 URL”中填写规则部分，然后在“手动指定 URL”中填写不规则部分。

　　具体步骤：

　　(a) 首先，回到打开的文章列表页面，找到浏览器的URL地址栏中显示的URL（如图8)和页面底部的换页部分。对于示例（如图 11) 所示，

　　图 11 - 页面提要

　　(b) 点击“2”打开文章列表页的第二页。此时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分，如图12)和（如图13) ,

　　图 12 - 第二页的 URL

　　图 13 - 第二页的换页部分

　　(c) 在打开的文章列表页的第二页，点击(1)，打开文章列表页的第一页。此时，换页部分在页面底部与下图11相同，但是浏览器的URL地址栏中显示的URL与上图8不一样，如图（图14),

　　图 14 - 第一个页面的 URL

　　(d) 由(b)和(c)推断，这里采集的文章列表页的URL遵循的规则是：

　　(e) 最后指定需要采集的页码或常规号，并设置其递增规律。

　　至此，“List URL获取规则”部分就设置好了。最终结果，如图（图15)，

　　图 15 - 设置后的 URL 获取规则列表

　　确认无误后，进行下一步。

　　1.2.3设置文章网址匹配规则

　　如图（图16)，

　　图 16 - 文章 URL 匹配规则

　　下面是设置采集文章列表页的匹配规则。

　　具体步骤：

　　(a) 对于“区域开头的HTML”，可以在打开的文章列表的第一页上右击，选择“查看源代码”。在源文件中，找到第一个文章的标题“在Dreamweaver中为插入的Flash添加透明度”，如图（图17)，

　　图 17 - 查看源文件中第一个文章的标题

　　通过观察，不难看出“

　　” 是整个文章列表的开头。因此，在“HTML开头区域”中，填写“

　　”。

　　(b) 在源文件中找到最后一个文章标题“通过Dreamweaver设计网页时组织CSS的建议”，如图（图18)，

　　图 18 - 查看源文件中最后一个文章的标题

　　结合文章列表的开头并观察第一个 "

　　" 是整个文章列表的结尾。因此，在“HTML 结尾区域”中，应该用 "

　　”。

　　“如果链接中收录图片”：设置对链接中收录的图片的处理方式。有不处理和采集是缩略图的选项。可根据实际需要选择。

　　“重新过滤区域URL”：可以使用正则表达式重新过滤区域网站，对于一些需要保留或过滤掉的内容，特别是混合列表页面，使用“必须收录”或“不得收录”以过滤出您想要或不想获取的文章内容页面的 URL。

　　具体步骤：

　　回到打开文章列表首页的源文件，观察可以看出每个文章内容页面地址的扩展名都是.html。因此，在“必须收录”中，填写“.html”。

　　至此，“文章URL匹配规则”就设置好了。最终结果，如图（图19)，

　　图 19 - 文章设置后的 URL 匹配规则

　　通过1.2.1小节、1.2.2小节和1.2.3小节，添加采集@的第一节> node 一步完成设置。设置后的结果，如图（图20)，

　　图20 - 设置后新增采集节点：第一步设置基本信息和URL索引页面规则

　　全部完成并勾选后，点击“保存信息并进入下一步”。如果前面设置正确，点击后会进入“添加采集节点：测试URL索引页面规则设置的基本信息和URL获取规则测试”页面，看到对应的文章列表地址. 如图（图21)，

　　图 21 - URL 获取规则测试

　　确认无误后，点击“保存信息并进入下一步”。否则，单击“返回上一步进行更改”。

　　到这里，第一节就结束了。进入下面的第二部分。. .

0

2022-04-04

文章采集功能

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集功能(Dedecms采集功能的使用方法——不含分页的普通文章)

0 个评论

发起人

AI时代内容工厂

文章采集功能(Dedecms采集功能的使用方法——不含分页的普通文章)

0 个评论

发起人

相关问题