技术文章:吾爱zblog采集程序
优采云 发布时间: 2022-12-19 10:33技术文章:吾爱zblog采集程序
My love zblog采集程序是一款非常好用的采集软件。它的页面简单而强大。可以参考压缩包中的示例参考采集规则,方便用户使用采集网站文章内容使用起来很方便,有需要的请前来下载你感兴趣。
软件功能
采集其他网站的文章可以发表在你的zblog博客上
软件特色
①. 支持自动采集对方的图片到你的网站
②. 支持发布文章到标签栏
③. 支持任意用户发布文章
④. 支持采集内容,快速过滤内容
⑤. 支持定时任务,自动采集
⑤、支持采集不同的页面内容,内容页面分页一级可以采集
特别提示
1 下载完成后不要运行压缩包中的软件直接使用,先解压;
2 软件同时支持32位和64位运行环境;
3 如果软件无法正常打开,请右键以管理员模式运行;
操作方法:Dedecms采集功能的使用方法---不含分页的普通文章(一)
前言:这篇文章是写给刚接触Dedecms采集功能的朋友的。选择的目标站点是官方网站dedecms的dreameaver专栏文章,其内容页面不收录分页。它详细介绍了如何创建基本 采集 规则。本文分为三部分:第一部分主要介绍如何进入采集界面和添加采集节点第一步:设置基本信息和网站索引页规则;第二节主要是介绍新增的采集节点的第二步:设置字段获取规则;第三节主要介绍如何采集指定节点以及如何导出采集内容。输入下面的第一部分。1.1 输入 采集节点管理界面如图(图1),点击后台管理界面主菜单中的采集,然后点击采集节点管理,进入采集节点管理界面,如图(图2)所示。图1-后台管理界面 图2-采集节点管理界面 1.2.添加新节点 在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(图2),即可进入“选择内容模型”界面,如图(图3)所示, 图3-选择内容模型界面 在“选择内容模型”界面的下拉列表框中,有“通用文章”和“图片集”可供选择。根据采集页面的类型,选择相应的内容模型。本文中选择“普通文章”,点击确定,进入“新建采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图4). 图4-新增采集节点:第一步设置基本信息和URL索引页面规则 1.2.1设置节点基本信息 图5-节点基本信息如图(图5)、节点名称:为新建立的节点起一个名字,这里填写< 如图(图4)所示。图4-新增采集节点:第一步设置基本信息和URL索引页面规则 1.2.1设置节点基本信息 图5-节点基本信息如图(图5)、节点名称:为新建立的节点起一个名字,这里填写< 如图(图4)所示。图4-新增采集节点:第一步设置基本信息和URL索引页面规则 1.2.1设置节点基本信息 图5-节点基本信息如图(图5)、节点名称:为新建立的节点起一个名字,这里填写<
在采集的目标页面上右击选择“查看源文件”即可获得。操作步骤: (a) 打开采集的目标页面:;(b)右击后选择“查看源文件”,找到charset”,如图(图6),图6-查看源文件,等号后面的代码是需要的编码格式“,这里是gb2312” .区域匹配方式”:设置如何匹配所需采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式是字符串。如果你对正则表达式比较了解,可以在这里选择正则表达式的模式。“内容导入顺序”:指定导入文章列表的顺序,可以选择“与目标站点一致”或“ 目标站点对面。“防盗链模式”:目标站点采集是否有刷新限制。刚开始很难判断,需要测试才能知道。如果是这样,你需要在这里设置资源下载超时时间。“参考网址”:填写任何文章内容页面的网址,即采集。具体操作步骤: (a) 在打开的文章列表页中,点击第一个文章的标题,打开文章内容页,如图(图7) 图7- 文章内容页面 (b) 此时浏览器URL地址栏中显示的URL即为引用URL中需要填写的URL,如图8所示。8-浏览器的URL地址栏在这里,节点基本信息设置完成。最后的结果,
1.2.2 设置列表URL获取规则如图(图10),图10-列表URL获取规则这里是设置采集的文章列表页面的匹配规则。如果采集的文章列表页有一定的规则,可以选择批量生成列表url”;如果采集的文章列表页根本没有规则可循,那么您可以选择手动指定列表URL”;如果采集站点提供RSS,您可以选择从 RSS 获取”。对于特殊情况,比如:有的列表页有规律性,有的则没有,那么可以在“匹配URL”中填写规则部分,然后在“手动指定URL”中填写不规则部分。具体操作步骤: (a) 首先,回到打开的文章列表页面,找到浏览器URL地址栏中显示的URL(图8)和页面底部的换页部分。如图(图11),图11-页面变化(b)点击“2”打开文章列表页面 第二页,此时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分,如图(图12)和(图13),图12-第二页的URL 图13-第二页的页面变化部分(c)在第二页打开的文章列表页,点击(1)打开文章列表页的第一页,然后底部的页面变化 页面部分同图11,只是URL浏览器的URL地址栏中显示的URL与之前的图8有所不同,如图(图14)所示,
为了安全起见,请自行测试更多列表页面。确定规则后,在“匹配URL”中填写文章列表页后面的规则。(e) 最后,指定需要采集的页码或规则号,并设置其增量规则。到这里,“列表URL获取规则”部分的设置就结束了。最终结果,如图(图15)所示, 图15-设置后列出URL获取规则 确认规则无误后,进入下一步设置。1.2.3 设置文章 URL匹配规则如图(图16),图16-文章 URL匹配规则这里是设置采集文章列表的匹配规则页 。具体操作步骤: (a) 对于区域开头的“HTML”,可以在打开的文章上右击
" 是整个 文章 列表的开头。因此,在该部分开头的 HTML 中,填写“
".(b)在源文件中,找到上一篇文章标题通过Dreamweaver设计网页时组织CSS的建议",如图(图18),图18-查看源文件,上一篇文章 的标题与 文章 列表的开头相结合,通过观察,第一个
”是整个 文章 列表的末尾。因此,在该部分末尾的 HTML 中,您应该填写“
".如果链接中有图片":设置对链接中收录的图片的处理方式,不处理和采集因为缩略图是可选的。可根据实际需要选用。重新过滤区域URL”:可以使用正则表达式重新过滤区域网站,这是针对一些需要保留或过滤掉的内容,尤其是混合列表页面,必须由使用“or not include”过滤掉你想获取或不想获取的文章内容页的url。具体操作步骤:返回文章首页的源文件正在打开的列表。通过观察,我们可以看到,每一个文章内容页面地址的扩展名都是.html。因此,可以在“必须包括”中填写“.html”。至此,文章 URL匹配规则就设置好了。最终结果,如图(图19),图19-设置后的文章URL匹配规则通过1.2.1段、1.2.2段和1.2.3段,添加第一个采集节点步骤 1 已设置。设置后的结果,如图(图20),图20-设置后新增采集节点:第一步完成检查基本信息和URL索引页面规则无误后点击保存信息,进入下一步设置。如果之前的设置无误,点击后,会进入新添加的采集节点:测试基本信息和URL索引页面规则设置“URL获取规则测试”页面,并看到对应的文章列表地址. 如图(图21)所示,