教程:Dedecms织梦后台模板采集功能的使用方法详解

优采云 发布时间: 2022-12-14 12:59

  教程:Dedecms织梦后台模板采集功能的使用方法详解

  概述前言:这篇文章是写给刚接触Dedecms采集功能的朋友的。选择的目标站点是官方网站dedecms的dreameaver专栏文章,其内容页面不收录分页。它详细介绍了如何创建基本 采集 规则。本文分为三个部分:第一部分主要介绍如何进入

  前言:这篇文章是写给刚接触dedecms采集函数的朋友的。选择的目标站点是官方网站dedecms的dreameaver专栏文章,其内容页面不收录分页。它详细介绍了如何创建基本 采集 规则。本文分为三部分:第一部分主要介绍如何进入采集界面和添加采集节点第一步:设置基本信息和网站索引页规则;第二节主要是介绍新增的采集节点的第二步:设置字段获取规则;第三节主要介绍如何采集指定节点以及如何导出采集内容。输入下面的第一部分。

  1.1 进入采集节点管理界面

  如图(图1)所示,在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”,进入采集节点管理界面,如图2所示。

  图1-后台管理界面

  图2-采集节点管理界面

  1.2. 添加新节点

  在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),进入“选择内容模型”界面,如图(图3)所示,

  图 3 - 选择内容模型界面

  在“选择内容模型”界面的下拉列表框中,有“通用文章”和“图片集”可供选择。根据采集页面的类型,选择相应的内容模型。本文中选择“常用文章”,点击确定,进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图4)节目,

  图4-新增采集节点:第一步设置基本信息和URL索引页面规则

  1.2.1 设置节点基本信息

  图 5 - 节点基本信息

  如图(图5)所示,

  节点名称:给新建的节点起个名字,这里填写“采集Test(1)”;

  目标页面编码:设置采集目标页面的编码格式,包括GB2312、UTF8、BIG5。可以通过右键单击采集目标页面并选择“查看源代码”来获取。

  脚步:

  (a) 打开目标页面 采集:;

  (b) 右键选择“查看源文件”,找到“charset”,如图(图6),

  图 6 - 查看源文件

  

  等号后面的代码是需要的“编码格式”,这里是“gb2312”。

  “区域匹配方式”:设置如何匹配所需的采集内容部分,可以是字符串,也可以是正则表达式。系统默认模式是字符串。如果你对正则表达式比较了解,可以在这里选择正则表达式的模式。

  “内容导入顺序”:指定文章列表的导入顺序,可选择“与目标站一致”或“与目标站相反”。

  “防盗链模式”:目标站点采集是否有刷新限制。刚开始很难判断,需要测试才能知道。如果是这样,你需要在这里设置“资源下载超时”。

  “Referrer URL”:填写将成为采集的任何文章内容页面的URL。

  具体步骤:

  (a) 在打开的文章列表页面,点击第一个文章

  标题“Add Transparency to Inserted Flash in Dreamweaver”打开文章内容页面如图(图7),

  图 7 - 文章 内容页面

  (b)此时浏览器的URL地址栏中显示的URL就是需要填写“引用URL”的URL,如图8所示,

  图 8 - 浏览器的 URL 地址栏

  至此,“节点基本信息”就设置好了。最终结果,如图(图9)所示,

  图9-设置后节点基本信息

  检查无误后,进行下一步设置。

  1.2.2 设置列表URL获取规则

  如图(图10)所示,

  图 10 - 列出 URL 获取规则

  下面是设置文章列表页为采集的匹配规则。如果采集的文章列表页面有一定的规则,可以选择“批量生成列表URL”;如果采集的文章列表页根本没有规则可循,那么您可以选择“手动指定列表URL”;如果 采集 站点提供 RSS,您可以选择“从 RSS 获取”。对于特殊情况,例如:有的列表页面是规则的,其余的是不规则的,可以在“匹配URL”中填写规则部分,然后在“手动指定URL”中填写不规则部分。

  具体步骤:

  (a) 首先,回到打开的文章列表页面,找到浏览器URL地址栏中显示的URL(图8)和页面下方的换页部分。如图(图11)所示,

  图 11 - 页面变化

  (b) 点击“2”打开文章列表页的第二页。此时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分,如(图12)和(图13)所示,

  

  图 12 - 第二页的 URL

  图 13 - 第二页的分页符部分

  (c) 在打开的文章列表页的第二页,点击(1)打开文章列表页的第一页。此时页面底部的页面变化部分与图11相同,但是浏览器的URL地址栏中显示的URL与之前的图8不同,如图(图14) ),

  图 14 - 第一页的 URL

  (d) 由(b)和(c)推断,此处采集的文章列表页面的URL遵循以下规则:

  (*).HTML。为了安全起见,请自行测试更多列表页面。确定规则后,在“匹配URL”中填写文章列表页后面的规则。

  (e) 最后,指定需要采集的页码或常规编号,并设置其递增规则。

  至此,“列表URL获取规则”部分就设置好了。最终结果,如图(图15)所示,

  图 15 - 设置后列出 URL 获取规则

  确认无误后进入下一步设置。

  1.2.3 设置文章 URL匹配规则

  如图(图16)所示,

  图 16 - 文章URL 匹配规则

  这里是为采集文章列出的页面设置匹配规则。

  具体步骤:

  (a) 对于“区域开头的HTML”,可以在打开的文章列表的第一页上右击,选择“查看源代码”。在源文件中,找到第一篇文章的标题文章《在Dreamweaver中为插入的Flash添加透明度》,如图(图17),

  图 17 - 查看源文件中第一个 文章 的标题

  通过观察,不难看出”

  (b) 在源文件中找到最后一个文章标题“通过Dreamweaver设计网页时组织CSS的建议”,如图(图18),

  图 18 - 查看源文件中最后一个 文章 的标题

  结合 文章 列表的开头并观察第一个“

  技巧:优采云采集器技术控使用手册(高级) 爬虫教程

  一套价值200的课程,目前官网还在更新中,最近刚联系优采云,有学习需要购买,分享给论坛成员!

  有些人纠结于学习Python或者优采云,可以学习Python必须学习Python,但难度比较大,优采云似乎更适合新手抓取和分析简单的数据,先玩优采云再看Python爬虫!

  课程目录:

  1-1 优采云采集器视频教程前言

  1-2优采云采集器中级教程预计明年与您见面

  2-1 如何使用提琴手软件捕获影子集合的链接地址

  2-2 使用Fiddler软件分析POST页面并获取列表URL的详细说明

  3-1 用途 优采云采集器采集58 房屋租赁内容 采集 第一部分

  3-2 使用优采云采集器采集58住房租赁采集的内容-下一部分

  3-3 使用优采云采集器采集追赶网络的数字图片和坐标的视频

  3-4 利用优采云采集器采集赶上新视频教程下的网络招聘信息

  3-5 使用优采云采集器采集HC网站公司信息采集视频教程-2019-11-18

  3-6 优采云采集器采集智联招聘信息采集-2019-12-04

  4-1 采集QQ群中所有QQ成员的方法

  4-2 腾讯滚动新闻制作采集规则制作详细视频教程

  

  4-3微信-搜狗-*敏*感*词*签证 - 微信文章采集视频教程

  4-4 第四节 微信公众号搜索的内容采集采集方法

  4-5 腾讯视频代码的采集和缩略图,以及图片水印叠加的处理。

  4-6 优采云采集器采集新浪滚动新闻 - 2019-11-25

  4-7 优采云采集器采集今日头条视频教程网站文章 - 2019-12-15

  5-1 合成多个TXT和单个TXT文本文档采集新颖网站内容的方法和注意事项

  5-2 优化Word文档采集器采集网站内容合成的方法和细节

  5-3 优采云采集器采集搜狐彩票号码合成XLS文件的方法

  5-4 通过采集器采集美图片网站合成HTML单页

  6-1 使用优采云采集器自由职业者网站的用例

  7-1 优酷采集器采集网站的视频和相关信息

  7-2 通过优采云采集器采集监控不同时间段不同视频的播放量

  7-3 优酷优采云采集器采集视频的评论内容

  8-1 采集百度关键词搜索结果并提取所需URL域名

  8-2 优采云采集器采集*敏*感*词*帖子内容和回复帖子

  8-3 使用优采云采集器采集百度新闻内容

  

  8-4 使用优采云采集器采集百度软件中心软件

  8-5 使用与百度广告牌相关的新信息 优采云采集器采集

  9-1 发布模块生产思路和生产优采云采集器

  9-2 仓储模块的生产思路和方法,如何存储以及如何关联多个表。

  9-3 如何制作织梦dedecms后台网页发布模块-2019-11-05

  10-1 优采云采集相关问题 - 2018-08-04

  10-2 优采云采集器9.7 突然打不开的解决方案

  10-3 雅虎商店信息采集 - 第 1 章

  10-4 雅虎商店信息采集 - 第 2 章

  10-5 喜马拉雅音频下载教程下载的音频可作为抖音素材-2019-02-09

  10-6 如何采集QQ和微信约会网站-2019-02-16

  10-7 百度关键词采集及SEO相关设置-2019-05-29

  下载地址:

  访问者,如果您想查看此帖子的隐藏内容,请回复自卫队自

  卫队 自卫队自卫 自 f 自 f 自 自 f 自 f 自 节 自 f 自 自 f 自 f 自 自 f 自 自 法 自 法 自 f 自 法 自 法 自 f 自 法 自 f 自 自 法 自 f 自 自 f 自 法 自 f 自 自

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线