文章cms采集( 如何采集指定节点和“如何导出采集内容”的说明)

优采云 发布时间: 2021-09-23 22:06

  文章cms采集(

如何采集指定节点和“如何导出采集内容”的说明)

  Dedecms采集函数的用法-文章(三))不带分页@

  前言:本文是“不分页的普通文章和采集方法”的第三部分。在前两节的基础上,将详细解释“如何采集指定节点”和“如何导出采集内容”。为了与上一节保持一致,本文将继续使用上一节的标记

  从第二节继续

  3.1采集指定节点

  点击保存并启动采集,进入采集指定节点界面,如下图所示34)如图所示

  

  图34-采集指定节点

  采集每页:设置每页所需的采集数量,并根据网站是否具有反刷新功能设置采集间隔

  特殊选项:设置是否检测重复图片。默认值为“检测”

  附加选项:有三种采集模式可供选择:第一种是“监控采集模式(检测当前或所有节点是否有新内容)”,选择后系统只采集指定节点中更新的内容;二是“重新下载所有内容”,选择后系统会采集指定节点中的所有内容;第三个是选择“下载seed网站的未交付内容”,系统将仅采集指定节点中的未交付内容,包括以前未交付和更新的内容

  设置完成并确认后,您可以单击开始采集网页或查看*敏*感*词*网址。此时,如果单击View seed web address,您将看到该列表为空,因为新创建的采集节点以前从未是采集节点,如图(figure)所示35)如图所示

  

  图35-查看节点的*敏*感*词*URL

  点击【启动采集网页】,系统将启动采集节点中设置的网址,并出现相关提示,如下图所示36)如图所示

  

  

  

  图36-采集正在处理的提示信息

  采集完成后,再次点击“查看*敏*感*词*URL”或点击页面右上角的“查看下载”即可查看已找到采集的URL信息,如下图所示37)如图所示

  

  图37-查看节点的*敏*感*词*URL

  采集成功后,您可以根据实际需要在页面右上角选择采集节点管理或导出数据。单击导出数据以输入采集Management>采集content导出界面,如下图所示38)如图所示

  

  图38-采集内容导出

  “默认导出列”:设置要导入采集的列,并将内容导入

  “Batch采集option”:如果列ID已在采集规则中指定,则可以使用此函数。如果指定的列ID为0,系统将把采集内容导入到“默认导出列”选择的列中

  “发布选项”:有发布为“普通文档”和“另存为草稿”的选项

  “每批导入”:设置每批导入的数量,不能太大

  “附加选项”:此处有多个选项。如果您不希望采集复制文章标题,可以选择“排除重复标题”;如果希望内容为采集直接生成HTML,可以选择“完成后自动生成导入内容的HTML”;如果希望系统在采集列表页面时自动识别标题名称,一般可以选择“使用列表索引标题”,不建议勾选

  “随机推荐”:填写一个代表文件数量的数字。推荐的文档随机出现在已填写的文档数量中。如果填写“0”,则表示没有推荐

  设置完毕后,点击【确定】按钮,将下载的内容导入所选列,如(图)39)如图所示

  

  图39-设置后采集内容导出页面

  同时,系统会提示导出过程,如(图)40)如图所示

  

  

  

  图40内容导出中的采集提示信息

  导出采集内容提示“更新所有列列表”,点击“浏览列”进入网站相关页面,查看文章列表及其具体内容。您也可以在后台管理界面的主菜单中点击“核心”,然后点击“普通文章”进入“文档列表”页面,查看采集所在的文章列表,如(图41)如图所示

  

  图41-文件列表

  到目前为止,目标网站的文章内容已成功达到采集的水平

  综上所述,采集normal文章不分页相对简单。由于文章是一个基础教程,所以不涉及太多的“过滤规则”。下一篇文章将介绍“normal文章带分页”的采集方法和过滤规则的使用@

  附上本文件的采集规则:

  {dede:listconfig}

  {Dede:noteinfo notename=“采集test(一)”channelid=“1”matthtype=“string”)

  refurl=“”sourcelang=“gb2312”cosort=“asc”isref=“no”exptime=“10”usemore=“0”/

  {dede:listrule sourcetype=“batch”rssurl=“http://”regxurl=“(*).html”

  startid=“1”endid=“1”addv=“1”urlrule=“区域”

  musthas=“.html”nothas=”“listpic=“1”usemore=“0”}

  {dede:addurls}{/dede:addurls}

  {dede:batchrule}{/dede:batchrule}

  {dede:regxrule}{/dede:regxrule}

  {dede:areastart}

  {/dede:areastart}

  {dede:areaend}

  {/dede:areaend}

  {/dede:listrule}

  {/dede:listconfig}

  {dede:itemconfig}

  {dede:sppage sptype='full'sptype='full'srul='1'erul='5'}{/dede:sppage}

  {dede:previewurl}{/dede:previewurl}

  {dede:keywordtrim}{/dede:keywordtrim}

  {dede:descriptiontrim}{/dede:descript离子修剪}

  {dede:item field='title'value=''isunit=''isdown='''}

  {dede:match}

  [内容]{/Dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  {dede:item field='writer'value=''isunit=''isdown='''}

  {Dede:match}作者:[content]{/Dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  {dede:item field='source'value=''isunit=''isdown='''}

  {Dede:match}来源:[content]{/Dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  {dede:item field='pubdate'value=''isunit=''isdown=''}

  {Dede:match}发布于:[content]{/Dede:match}

  {dede:function}@me=GetMkTime(@me);{/dede:function}

  {/dede:item}

  {dede:item field='body'值=''isunit='1'isdown='1'}

  {dede:match}

  [内容]

  {/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  {/dede:itemconfig}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线