文章cms采集( 如何采集指定节点和“如何导出采集内容”的说明)
优采云 发布时间: 2021-09-23 22:06文章cms采集(
如何采集指定节点和“如何导出采集内容”的说明)
Dedecms采集函数的用法-文章(三))不带分页@
前言:本文是“不分页的普通文章和采集方法”的第三部分。在前两节的基础上,将详细解释“如何采集指定节点”和“如何导出采集内容”。为了与上一节保持一致,本文将继续使用上一节的标记
从第二节继续
3.1采集指定节点
点击保存并启动采集,进入采集指定节点界面,如下图所示34)如图所示
图34-采集指定节点
采集每页:设置每页所需的采集数量,并根据网站是否具有反刷新功能设置采集间隔
特殊选项:设置是否检测重复图片。默认值为“检测”
附加选项:有三种采集模式可供选择:第一种是“监控采集模式(检测当前或所有节点是否有新内容)”,选择后系统只采集指定节点中更新的内容;二是“重新下载所有内容”,选择后系统会采集指定节点中的所有内容;第三个是选择“下载seed网站的未交付内容”,系统将仅采集指定节点中的未交付内容,包括以前未交付和更新的内容
设置完成并确认后,您可以单击开始采集网页或查看*敏*感*词*网址。此时,如果单击View seed web address,您将看到该列表为空,因为新创建的采集节点以前从未是采集节点,如图(figure)所示35)如图所示
图35-查看节点的*敏*感*词*URL
点击【启动采集网页】,系统将启动采集节点中设置的网址,并出现相关提示,如下图所示36)如图所示
图36-采集正在处理的提示信息
采集完成后,再次点击“查看*敏*感*词*URL”或点击页面右上角的“查看下载”即可查看已找到采集的URL信息,如下图所示37)如图所示
图37-查看节点的*敏*感*词*URL
采集成功后,您可以根据实际需要在页面右上角选择采集节点管理或导出数据。单击导出数据以输入采集Management>;采集content导出界面,如下图所示38)如图所示
图38-采集内容导出
“默认导出列”:设置要导入采集的列,并将内容导入
“Batch采集option”:如果列ID已在采集规则中指定,则可以使用此函数。如果指定的列ID为0,系统将把采集内容导入到“默认导出列”选择的列中
“发布选项”:有发布为“普通文档”和“另存为草稿”的选项
“每批导入”:设置每批导入的数量,不能太大
“附加选项”:此处有多个选项。如果您不希望采集复制文章标题,可以选择“排除重复标题”;如果希望内容为采集直接生成HTML,可以选择“完成后自动生成导入内容的HTML”;如果希望系统在采集列表页面时自动识别标题名称,一般可以选择“使用列表索引标题”,不建议勾选
“随机推荐”:填写一个代表文件数量的数字。推荐的文档随机出现在已填写的文档数量中。如果填写“0”,则表示没有推荐
设置完毕后,点击【确定】按钮,将下载的内容导入所选列,如(图)39)如图所示
图39-设置后采集内容导出页面
同时,系统会提示导出过程,如(图)40)如图所示
图40内容导出中的采集提示信息
导出采集内容提示“更新所有列列表”,点击“浏览列”进入网站相关页面,查看文章列表及其具体内容。您也可以在后台管理界面的主菜单中点击“核心”,然后点击“普通文章”进入“文档列表”页面,查看采集所在的文章列表,如(图41)如图所示
图41-文件列表
到目前为止,目标网站的文章内容已成功达到采集的水平
综上所述,采集normal文章不分页相对简单。由于文章是一个基础教程,所以不涉及太多的“过滤规则”。下一篇文章将介绍“normal文章带分页”的采集方法和过滤规则的使用@
附上本文件的采集规则:
{dede:listconfig}
{Dede:noteinfo notename=“采集test(一)”channelid=“1”matthtype=“string”)
refurl=“”sourcelang=“gb2312”cosort=“asc”isref=“no”exptime=“10”usemore=“0”/
{dede:listrule sourcetype=“batch”rssurl=“http://”regxurl=“(*).html”
startid=“1”endid=“1”addv=“1”urlrule=“区域”
musthas=“.html”nothas=”“listpic=“1”usemore=“0”}
{dede:addurls}{/dede:addurls}
{dede:batchrule}{/dede:batchrule}
{dede:regxrule}{/dede:regxrule}
{dede:areastart}
{/dede:areastart}
{dede:areaend}
{/dede:areaend}
{/dede:listrule}
{/dede:listconfig}
{dede:itemconfig}
{dede:sppage sptype='full'sptype='full'srul='1'erul='5'}{/dede:sppage}
{dede:previewurl}{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descript离子修剪}
{dede:item field='title'value=''isunit=''isdown='''}
{dede:match}
[内容]{/Dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='writer'value=''isunit=''isdown='''}
{Dede:match}作者:[content]{/Dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='source'value=''isunit=''isdown='''}
{Dede:match}来源:[content]{/Dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='pubdate'value=''isunit=''isdown=''}
{Dede:match}发布于:[content]{/Dede:match}
{dede:function}@me=GetMkTime(@me);{/dede:function}
{/dede:item}
{dede:item field='body'值=''isunit='1'isdown='1'}
{dede:match}
[内容]
{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}