技术文章:吾爱zblog采集程序

优采云发布时间: 2022-12-19 10:33

　　技术文章:吾爱zblog采集程序

　　My love zblog采集程序是一款非常好用的采集软件。它的页面简单而强大。可以参考压缩包中的示例参考采集规则，方便用户使用采集网站文章内容使用起来很方便，有需要的请前来下载你感兴趣。

　　软件功能

　　采集其他网站的文章可以发表在你的zblog博客上

　　软件特色

　　①. 支持自动采集对方的图片到你的网站

　　②. 支持发布文章到标签栏

　　③. 支持任意用户发布文章

　　④. 支持采集内容，快速过滤内容

　　⑤. 支持定时任务，自动采集

　　⑤、支持采集不同的页面内容，内容页面分页一级可以采集

　　特别提示

　　1 下载完成后不要运行压缩包中的软件直接使用，先解压；

　　2 软件同时支持32位和64位运行环境；

　　3 如果软件无法正常打开，请右键以管理员模式运行；

　　操作方法:Dedecms采集功能的使用方法---不含分页的普通文章（一）

　　前言：这篇文章是写给刚接触Dedecms采集功能的朋友的。选择的目标站点是官方网站dedecms的dreameaver专栏文章，其内容页面不收录分页。它详细介绍了如何创建基本采集规则。本文分为三部分：第一部分主要介绍如何进入采集界面和添加采集节点第一步：设置基本信息和网站索引页规则；第二节主要是介绍新增的采集节点的第二步：设置字段获取规则；第三节主要介绍如何采集指定节点以及如何导出采集内容。输入下面的第一部分。1.1 输入采集节点管理界面如图（图1），点击后台管理界面主菜单中的采集，然后点击采集节点管理，进入采集节点管理界面，如图（图2）所示。图1-后台管理界面图2-采集节点管理界面 1.2．添加新节点在采集节点管理界面，点击左下角“添加新节点”或右上角“添加新节点”（图2），即可进入“选择内容模型”界面，如图（图3）所示，图3-选择内容模型界面在“选择内容模型”界面的下拉列表框中，有“通用文章”和“图片集”可供选择。根据采集页面的类型，选择相应的内容模型。本文中选择“普通文章”，点击确定，进入“新建采集节点：第一步设置基本信息和URL索引页面规则”界面，如图（图4). 图4-新增采集节点：第一步设置基本信息和URL索引页面规则 1.2.1设置节点基本信息图5-节点基本信息如图（图5)、节点名称：为新建立的节点起一个名字，这里填写< 如图（图4）所示。图4-新增采集节点：第一步设置基本信息和URL索引页面规则 1.2.1设置节点基本信息图5-节点基本信息如图（图5)、节点名称：为新建立的节点起一个名字，这里填写< 如图（图4）所示。图4-新增采集节点：第一步设置基本信息和URL索引页面规则 1.2.1设置节点基本信息图5-节点基本信息如图（图5)、节点名称：为新建立的节点起一个名字，这里填写<

　　在采集的目标页面上右击选择“查看源文件”即可获得。操作步骤： (a) 打开采集的目标页面：；(b)右击后选择“查看源文件”，找到charset”，如图（图6），图6-查看源文件，等号后面的代码是需要的编码格式“，这里是gb2312” .区域匹配方式”：设置如何匹配所需采集的内容部分，可以是字符串，也可以是正则表达式。系统默认模式是字符串。如果你对正则表达式比较了解，可以在这里选择正则表达式的模式。“内容导入顺序”：指定导入文章列表的顺序，可以选择“与目标站点一致”或“ 目标站点对面。“防盗链模式”：目标站点采集是否有刷新限制。刚开始很难判断，需要测试才能知道。如果是这样，你需要在这里设置资源下载超时时间。“参考网址”：填写任何文章内容页面的网址，即采集。具体操作步骤： (a) 在打开的文章列表页中，点击第一个文章的标题，打开文章内容页，如图（图7）图7- 文章内容页面 (b) 此时浏览器URL地址栏中显示的URL即为引用URL中需要填写的URL，如图8所示。8-浏览器的URL地址栏在这里，节点基本信息设置完成。最后的结果，

　　1.2.2 设置列表URL获取规则如图（图10），图10-列表URL获取规则这里是设置采集的文章列表页面的匹配规则。如果采集的文章列表页有一定的规则，可以选择批量生成列表url”；如果采集的文章列表页根本没有规则可循，那么您可以选择手动指定列表URL”；如果采集站点提供RSS，您可以选择从 RSS 获取”。对于特殊情况，比如：有的列表页有规律性，有的则没有，那么可以在“匹配URL”中填写规则部分，然后在“手动指定URL”中填写不规则部分。具体操作步骤： (a) 首先，回到打开的文章列表页面，找到浏览器URL地址栏中显示的URL（图8）和页面底部的换页部分。如图（图11），图11-页面变化（b）点击“2”打开文章列表页面第二页，此时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分，如图（图12）和（图13），图12-第二页的URL 图13-第二页的页面变化部分（c）在第二页打开的文章列表页，点击（1）打开文章列表页的第一页，然后底部的页面变化页面部分同图11，只是URL浏览器的URL地址栏中显示的URL与之前的图8有所不同，如图（图14）所示，

　　为了安全起见，请自行测试更多列表页面。确定规则后，在“匹配URL”中填写文章列表页后面的规则。(e) 最后，指定需要采集的页码或规则号，并设置其增量规则。到这里，“列表URL获取规则”部分的设置就结束了。最终结果，如图（图15）所示，图15-设置后列出URL获取规则确认规则无误后，进入下一步设置。1.2.3 设置文章 URL匹配规则如图（图16），图16-文章 URL匹配规则这里是设置采集文章列表的匹配规则页。具体操作步骤： (a) 对于区域开头的“HTML”，可以在打开的文章上右击

　　" 是整个文章列表的开头。因此，在该部分开头的 HTML 中，填写“

　　".(b)在源文件中，找到上一篇文章标题通过Dreamweaver设计网页时组织CSS的建议"，如图（图18），图18-查看源文件，上一篇文章的标题与文章列表的开头相结合，通过观察，第一个

　　”是整个文章列表的末尾。因此，在该部分末尾的 HTML 中，您应该填写“

　　".如果链接中有图片"：设置对链接中收录的图片的处理方式，不处理和采集因为缩略图是可选的。可根据实际需要选用。重新过滤区域URL”：可以使用正则表达式重新过滤区域网站，这是针对一些需要保留或过滤掉的内容，尤其是混合列表页面，必须由使用“or not include”过滤掉你想获取或不想获取的文章内容页的url。具体操作步骤：返回文章首页的源文件正在打开的列表。通过观察，我们可以看到，每一个文章内容页面地址的扩展名都是.html。因此，可以在“必须包括”中填写“.html”。至此，文章 URL匹配规则就设置好了。最终结果，如图（图19），图19-设置后的文章URL匹配规则通过1.2.1段、1.2.2段和1.2.3段，添加第一个采集节点步骤 1 已设置。设置后的结果，如图（图20），图20-设置后新增采集节点：第一步完成检查基本信息和URL索引页面规则无误后点击保存信息，进入下一步设置。如果之前的设置无误，点击后，会进入新添加的采集节点：测试基本信息和URL索引页面规则设置“URL获取规则测试”页面，并看到对应的文章列表地址. 如图（图21）所示，

0

2022-12-19

文章采集规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

技术文章:吾爱zblog采集程序

0 个评论

发起人

AI时代内容工厂

技术文章:吾爱zblog采集程序

0 个评论

发起人

相关问题