自动采集编写(DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(1))
优采云 发布时间: 2021-08-31 18:11自动采集编写(DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(1))
DedecmsV5.6版Auto采集函数规则使用基础知识讲解教程(1)2011-05-05 17:09:01 来源:作者:我要投稿互联网摘录:dedecms采集函数使用基础知识讲解采集指的是有明确方向和明确目的的活动,挑选和记录写作材料,主要指调查、采访、审查和采集数据.采集的主要功能是获取直接和间接材料进行写作、分析、报道。今天我们说的采集主要指的是网站采集,网站采集是主要概念是的:程序按照规定的规则获取其他网站数据的一种方式,另一种简单的方式就是程序化CTRL+C CTRL+V,系统的,自动的,智能的。dedecms早有天。增加了这个采集功能。过去我们通过复制粘贴编辑然后发布来添加网站内容。这对于一个小l 数量的文章,但是如果一个新站点没有内容,那么你需要复制粘贴很多文章,这是一个重复和无聊的过程,内容采集就是为了解决这个问题,将这种重复操作简化为规则,通过规则进行批量操作。当然采集你也可以用一些特殊的采集器来做采集,国内比较有名的采集器有机车。今天我们就来讲解一下如何通过Dedecms程序自带的采集函数来使用采集,并介绍如何批量管理采集的内容。
首先我们进入系统后台,打开【采集】-【采集node管理】,介绍一些基本的技术知识,再学习使用这个采集工能。首先,我们需要了解HTML的基本内容。我们知道,浏览器中显示的各种页面,其实都是由最基本的 HTML 组成的。我们可以在我们的Dedecms系统后台发布一个内容,然后查看内容在格式上面做一些设置。换句话说,我们的页面是在浏览器解析 HTML 代码后显示的。这些基本的HTML代码是给机器看的,解析出来的内容是给我们用户看的。机器其实是个死东西。他不像用户看网页时,他可以直接看到某部分内容,机器可以看到某部分代码。 dedecmsV5.6版自动采集功能规则讲解基础知识教程(二)2011-05-05 17:09:01 来源:作者:我想把这个页面贡献给网络文摘: 我们电脑看不到,但是他判断显示什么,他只会解析代码,我们右键查看这个文件的源文件,机器读取代码的内容,他只能看懂这部分的内容在这个地方:也就是说,如果我们需要采集这些内容,我们需要告诉机器你应该从哪里开始,从哪里结束,中间部分就是我们需要的,然后这些内容都自动添加到数据库中,省去添加的枯燥内容。
dedecmsV5.6版自动采集函数规则使用基础知识讲解教程(三)2011-05-05 17:09:01 来源:作者:我要提交本页网文摘要: 这里我们讲到采集中的一个概念:规则,规则就是我们告诉计算机要做的事情,比如采集内容,我们告诉计算机代码从哪里开始,代码在哪里结束,这些内容都是一条规则,在Dedecms程序中我们需要涉及到两条规则,1.List规则;2.Content规则。List规则:告诉电脑你去采集哪几篇文章,这些文章列表以什么HTML代码开始,以什么HTML代码结束;内容规则:告诉计算机采集内容的哪一部分,文档内容从哪个HTML代码开始,到最后HTML代码;我们说学会使用采集功能,其中最重要的是学会制定采集规则,有了这些规则,采集其实是很简单的事情采集的一般步骤主要包括以下内容步骤:制定列表采集规则,这里的设置主要告诉服务器采集是什么内容,通常是采集网站的列表页面;制定内容采集规则:这里告诉服务器采集页面的内容在页面的哪个部分,通常是采集网站的内容页面;生成采集后的HTML页面代码;我们也可以清楚的看到,采集的关键也是前两步。这两个步骤是判断采集内容是否成功的重要环节。有一处采集如果从采集到网站发生任何错误,都不会成功。
(第一部分结束)下面我们将通过一个例子来说明如何使用Dedecms的采集程序来采集页面信息。我们来看看打开的采集node 管理页面:我们将整个采集规则和内容变成一个节点,通过对采集规则和采集内容的管理,我们可以轻松方便的对待我们的采集规则和采集内容节点用于管理,当然采集规则也可以导出。我们只需要选择对应的采集节点,然后点击【导出配置】就可以导出我们预先指定的采集规则。一起分享。当然,如果您已经获取了节点规则,也可以通过系统的【导入采集规则】将采集规则导入系统,方便采集节点的管理,我们也可以查看此节点的当前采集。 采集的内容信息,如采集的日期、创建节点的日期、获取的URL数量等,都是采集节点的重要组成部分。这是文档的内容,所以我们在创建节点的时候首先选择“normal文章”。在V5.3中,只有普通的文章和atlas 2支持采集。之前可以自己定义,但是后来发现用的人很少,很多人都遇到了问题。所以在新版本中,我取消了采集node的这些功能。选择节点类型后,我们开始创建节点。第一部分是节点基本信息的创建,“节点名称”,这个比较简单,方便大家区分节点名称,这里我们定义为“站长学院_采集”, “目标页面编码”,这需要您查看您为采集 的网页使用的编码。一般来说,如果你使用的是IE浏览器,你只需要右键查看:Firefox浏览器需要在【查看】-【字符编码】菜单中,找到你相信的字符编码类型:这里我们看到页面编码类型为UTF-8,所以我们需要将“目标页面编码”设置为对应的编码。
dedecmsV5.6版自动采集函数规则使用基础知识讲解教程(四)2011-05-05 17:09:01 来源:作者:我要提交本页网总结: “区域匹配模式”分为字符串和正则表达式两种,我们通常使用的匹配模式是字符串,当然,如果懂正则表达式,可以使用正则,这里简单介绍一下正则表达式。表达式 正则表达式描述了字符串匹配的一种模式,可用于检查字符串是否收录某个子字符串,替换匹配的子字符串,或者从字符串中提取满足某个条件的 z),以及特殊的由以下组成的文本模式字符(称为元字符)。正则表达式用作模板,将某个字符模式与搜索到的字符串进行匹配。通过正则化很容易找到对应的字符区域,但是如果要使用这种正则化,就需要学习正则化的相关知识。这里主要使用字符串,不再赘述。内容导入顺序:即导入内容在栏目中的顺序,我们默认选择与目标站相同。如果您需要将内容颠倒排序,只需选择相应的选项即可。接下来就是设置防盗链接了,如果你的采集站点没有打开防盗链接,可以忽略。接下来,让我们正式设定采集的规则。我们也说过采集的规则需要分为列表采集规则和内容采集规则。列表采集规则需要在开头设置,只有列表采集规则设置正确,服务器才能知道采集那些文章。
list采集规则的设置需要两部分。第一部分是列表URL获取规则。指定列表网址获取规则主要是因为很多站长采集target网站不仅仅是采集几个内容,有可能下载目标站采集的全部内容,而我们在采集的时候我们发现这个栏目下有数百个内容。页面”以这种形式表示,我们在想要采集内容之前需要让服务器知道整个列表的URL。设置列表采集规则比较简单。获取列表主要有3种方式: 生成列表批量url,通过系统自动生成批量地址列表;手动指定列表url,手动指定列表页面;从RSS获取,通过RSS文件获取列表页面。如果我们只需要采集一个列表页面,例如我们只需要采集,只要这10条内容,那么我们只需要在匹配的URL中填写这个URL即可。如果我们采集多个列表的内容,就可以完成通过自动生成或指定多个列表页面,我们查看下一个列表页面,我们点击下面栏目的第一页,这样我们就可以自动指定一个规则。点击匹配URL后面的“测试”按钮看看发现我们已经成功获取到这个列表了,或者我们选择手动指定,然后在URL列表中指定:当然,这个列表部分的规则还有更多的功能,比如可以指定列表列的导入内容。这部分的详细设置可以在织梦帮助中心查看:这里我们已经完成了列表地址的设置。接下来,我们需要设置文章 URL 匹配规则。这个匹配规则是让我们来到采集文章列表,告诉服务器采集文章在采集This文章中,我们看一下这些列表的页面。不变的部分是头部导航,右边推荐信息,底部内容。主要变化是列表的标题和内容。我们采集列表文章的主要内容是采集列表的文章标题部分。如果我们理解HTML代码观察,最直接的表现就是HTML代码列表页面部分的内容发生了变化。
所以当我们指定采集列表页面时,我们只需要指定一个统一的规则,因为列表的页面是一样的,所以这个规则适用于所有的列表页面。当然,我们也会发现内容页面也是如此。你只需要给采集指定一个统一的规则就可以得到所有相似页面的内容。当然,有些网站列表是链接到其他内容的,所以你会遇到采集规则不匹配的问题。一般不可能采集到达内容,因为规则不适用,另外一个表现就是采集progress 文章不动,就到此为止,有时甚至会报错。这些原因的主要原因是规则与目标采集网站不匹配,所以在采集内容之前确保规则的正确性。德德cmsV5.6版自动采集函数规则使用基础知识讲解教程(五)2011-05-05 17:09:01 来源:作者:我想把这个页面贡献给网络摘要:接下来我们设置列表采集页面的采集规则,我们先查看源文件,在IE浏览器中右键选择【查看源文件】打开列表页面的源代码,如果我们有DW,把这些代码复制到DW,我们找到那个列表的位置:我们发现这个列表的内容在“”层,也就是我们需要告诉服务器采集这个列表的标题list你从这里采集开始,然后到这一层采集的末尾,我们看到这一层的末尾是“”,中间没有找到相同的代码。
这里需要告诉大家的是我们的规则,它告诉服务器起始的HTML标签必须是唯一的,也就是说你在这个页面上只有这个标签,这样计算机就知道从哪里开始,从哪里开始那地方结束。 采集 写规则的时候,很多时候需要找唯一标识符。有了这些标识符,服务器就知道它可以捕获内容。我们已经到达了刚才列表的范围,在“”之间,所以填写采集规则的“区域开头的HTML:”和“区域结尾的HTML:”,以及服务器随后会将其间的所有连接用作目标采集 的文章 列表以继续采集 向下。但有一个问题。在我们的列表规则中,并不是所有的超链接都是目标采集的文章。设置的页面是内容页面,所以我们需要过滤掉这些不续采集丢失的内容页面。 织梦的采集提供了2种方式过滤这些页面:1.必须收录,这是采集的超链接中必须收录的,2.不能收录,在采集的地址中哪些内容不能收录,我们一般采用这两个公式中的一个。通过观察可以看出我们需要采集的内容页地址不收录“feedback.php”,所以我们将收录所有Feedback.php然后过滤掉,剩下的是我们的文章连接.
还有一个缩略图的处理,我们可以使用默认,设置完成后,我们保存测试,看看我们是否可以采集到达内容。我们发现已经可以成功采集到文章的标题列表信息了:此时我们的列表信息是采集完成的,接下来我们将设置内容页的采集规则,这个采集 规则和列表页 采集 规则也很相似,主要功能是从重复的内容页中获取不同的内容,下面我们继续处理采集 的内容。 dedecmsV5.6版自动采集功能规则讲解基础知识教程(六)2011-05-05 17:09:01 来源:作者:我想把这个页面贡献给网络文摘: 我们先打开一个文章内容,我们把这个网页的源代码复制到DW工具中查看:我们可以看到这个页面的源代码中的“标题”和“文章内容”,以及那么我们来设置一下内容采集规则,在新版本的V5.3中,如果采集网页内容收录关键词和页面摘要,系统会自动采集,即在页面代码:采集的内容会自动下载,当然很多用户是想自己设置或生成的,那么我们这里就用过滤规则自动过滤掉采集的内容,我们过滤内容是关键字和“摘要”在“过滤内容”中填写过滤规则:{dede:trim replace=""}(.*){/dede:trim}这里说一下这个过滤规则,{dede:trim replace=" "}正则表达式{/dede :trim},使用正则{dede:trim} 标签中间的r表达式,在采集的内容中搜索对应的字符串。如果需要替换搜索到的内容,需要指定replace属性。例如,如果我们只是在获取内容字段时将所有关键词替换为空,如果我们默认指定关键词,我们可以这样写:{dede:trim replace="Dedecms,织梦, demo站"}(.*){/dede:trim}因为我们这里主要是demo,主要有2个字段采集,1是内容的标题,另一个是文章的内容,所以我们需要相应地制定2个地方的匹配规则。
我们为文章title设置了匹配规则,因为一般内容的标题会出现在两个标签“”之间,所以我们在设置标题匹配规则的时候只需要设置默认的“”,但是有一件事,我们看一下采集目标站的标题:他在每个标题后面都加上了“_织梦unofficial demo site”,所以我们需要去掉这部分指定的规则,简单的修改匹配规则就是这样,我们修改为“”,这样我们就完成了title的匹配规则的编译。匹配规则,在匹配区域规则中,规则一般为“开头无重复HTML[内容]结尾无重复HTML”(正常匹配,不规则)。接下来,我们设置文章内容的匹配规则。这个匹配规则有点类似于标题的匹配规则。我们只需要找到唯一的 HTML 开始标记和 HTML 结束标记。我们刚刚指定了文章 列表规则。为文章找到的内容收录在layer”layer标签中,所以我们指定的匹配规则是一样的。我们根据上面匹配规则的定义设置如下匹配规则: [Content]当然会有在采集的内容中是一些我们不想关闭的超链接,这个时候我们需要清除那些内容,然后我们需要使用过滤规则,这个过滤规则和刚才的一样,但是系统自带了一些常用的常规规则,我们来看看:我们设置了过滤规则后,在采集中会有不同的效果。当然采集部分还有几个小选项这里需要说明的内容,一个是页面内容字段,这个只有采集是多页面内容时才会接触,需要在开头设置分页采集的开始和结束标签. 设置方法和匹配规则相同。
下载字段中的多媒体资源。这是采集下载时某些多媒体字段中的附件。一般只支持部分图片和部分flash下载。如果有很多图片不能采集,可能是服务器的原因,要么是本地服务器不支持,要么是对方服务器采取了防止采集的措施。自定义处理接口,这个主要是通过一些函数来处理网页的内容,我们可以设置一个简单的自定义处理接口,因为采集的内容可能收录HTML代码,那么我们把采集的内容进行转换totxt文本,这里可以使用自定义处理界面。我们设置内容如下:@me=html2text(@me);这样我们就可以保存采集规则了,到目前为止我们已经在规则编写部分完成了,那么我们开始采集内容:接下来我们开始采集节点内容采集完成后,我们导入到对应的列,如果我们之前设置了导出列,可以检查:使用采集规则中指定的列ID(如果目标列ID为0,则使用上面选择的列),这样就可以导入了确认设置后进入该列,然后导入到对应的列中。来看看测试栏下内容:dedecmsV5.6版自动采集函数规则使用基础知识讲解教程(七)2011-05-05 17:09:01 来源:作者:我要投稿本页加网总结: 接下来需要处理这些内容,可以进入系统后台【核心】-【文档关键词维护】,这里可以使用“分析系统中的关键词”自动返回关键词content .
我们“检测现有关键字”以自动获取关键词。或者可以通过自动获取摘要或者分页的方式批量维护采集的内容,非常方便。当然,系统批处理的功能还有很多,这里就不一一列举了。最后,我们需要生成所有的静态页面,到此采集的所有内容就完成了。其实采集并不难,原理是一样的。最主要的是你理解了一些概念,一个匹配规则和一个过滤规则。匹配规则需要的是你可以找到一个唯一的标识符,你可以通过这些唯一标识符来判断你的内容采集。过滤规则是处理你采集的内容。当然,您也可以通过系统的批处理进行维护。 采集 的内容。 采集的经验积累很重要。一般有些网页,比如我们演示的案例,很简单,使用div+css布局,结构也很清晰,所以采集很简单,但是有些网页使用表格布局,就采集一下比较麻烦,所以这个需要你设置采集的内容,过滤内容。只有当你有很多采集 经验时才能做到这一点。总之,采集可以帮助你的站点在前期丰富内容,但是一个长期发展的站点并不能仅仅依靠采集别人的内容来生存,更重要的是站点的内容、功能、以及独创性。这些都是站长需要考虑的事情,所以我们了解到采集只是一个简单的应用工具,不建议大家都用采集做网站。我们总结了本课程的主要内容:采集的基本概念理解采集的一般步骤,结合实例了解如何设置采集节点的规则;基本批处理;