文章采集内容(本文采集指定节点和“如何导出采集内容”的说明)

优采云 发布时间: 2022-03-12 06:01

  文章采集内容(本文采集指定节点和“如何导出采集内容”的说明)

  前言:本文是《采集普通文章无分页的方法》的第三篇。节点”和“如何导出采集内容”进行详细说明。为了与前文保持一致,本文将继续使用前文的章节标记。

  接第二部分。

  3.1采集指定节点

  点击“保存并启动采集”后,会进入“采集指定节点”界面,如图(图34),

  

  图 34-采集指定节点

  每页采集:设置每页需要的采集个数,根据网站是否有防刷新功能设置采集的间隔时间。

  特殊选项:设置是否检测重复图像,默认为“检测”。

  附加选项:该选项共有3种采集模式可供选择:第一种是“监控采集模式(检测当前或所有节点是否有新内容)”,选择后,系统只会采集指定节点更新内容;第二个是“重新下载所有内容”,选择后系统会采集指定节点中的所有内容;三是“下载*敏*感*词*”网站的未下载内容”,选择后系统只会采集指定节点的未下载内容,包括之前未下载和更新的内容。

  设置完成并确认后,点击“开始采集网页”或“查看Torrent URL”。此时,如果点击“查看*敏*感*词*URL”,会看到列表为空,这是因为新创建的采集节点从来都不是采集,如图(图3< @5)

  

  图 35 - 查看节点的*敏*感*词* URL

  点击“启动采集网页”后,系统会启动采集节点中设置的URL,并出现相关提示,如图36),

  p>

  

  

  

  图36-采集提示信息处理中

  采集结束后,再次点击“查看Torrent URL”或点击页面右上角的“查看已下载”,可以看到已经采集的URL信息,如(图 37)如图所示,

  

  图 37 - 查看节点的*敏*感*词* URL

  采集成功后,可以根据实际需要点击页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>采集内容导出”界面,如图(图38),

  

  图 38-采集内容导出

  “默认导出列”:设置采集的内容导入到的列

  “批处理采集选项”:如果采集规则中已经指定了列ID,则可以使用该函数。如果指定的列ID为0,系统会将采集导入的内容发送到“默认导出部分”选择的列中。

  “发布选项”:有发布为“普通文档”和“另存为草稿”的选项。

  “每批次导入”:设置每批次导入的项目数量,数量不宜过大。

  “附加选项”:这里有多种选择。如果不想采集重复文章标题,可以选择“排除重复标题”;如果希望内容为采集直接生成HTML,选择“完成后自动生成导入”内容HTML”;如果希望系统在采集列表页时自动识别标题名称,可以选择“使用列表索引的标题”,一般不推荐。

  “随机推荐”:填写一个代表文档数量的数字。推荐的文档在填写的文档数中随机出现,如果填写“0”,则表示不推荐。

  设置完成后,可以点击“确定”将下载的文件导入到选中的栏目中,如图(图39),

  

  图 39 - 采集内容导出页面

  设置后

  同时系统会提示导出过程,如图40),

  

  

  

  图40-采集内容导出提示信息

  导出采集的内容后,内容提示“完成所有栏目列表更新”,点击“浏览栏目”,即可进入网站的相关页面查看文章的采集 to @> 列表及其具体内容。也可以在后台管理界面主菜单点击“Core”,然后点击“普通文章”进入“文档列表”页面,查看文章采集的列表@> 到 ,如图41),

  

  图 41 - 文档列表

  至此,目标网站的文章内容已经成功采集到达。

  总结一下,采集“普通的文章不分页”还是比较简单的。由于本文章是基础教程,所以不涉及过多的“过滤规则”。 采集方法的使用和“普通文章带分页”的过滤规则将在下一篇文章文章中介绍。

  本文附上的采集规则:

  {dede:listconfig}

  {dede:noteinfo notename="采集Test(一)" channelid="1" macthtype="string"

  refurl="" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /}

  {dede:listrule sourcetype="batch" rssurl="http://" regxurl="(*).html"

  startid="1" endid="1" addv="1" urlrule="area"

  musthas=".html" nothas="" listpic="1" usemore="0"}

  {dede:addurls}{/dede:addurls}

  {dede:batchrule}{/dede:batchrule}

  {dede:regxrule}{/dede:regxrule}

  {dede:areastart}

  {/dede:areastart}

  {dede:areaend}

  {/dede:areaend}

  {/dede:listrule}

  {/dede:listconfig}

  {dede:itemconfig}

  {dede:sppage sptype='full' sptype='full' srul='1' erul='5'}{/dede:sppage}

  {dede:previewurl}{/dede:previewurl}

  {dede:keywordtrim}{/dede:keywordtrim}

  {dede:descriptiontrim}{/dede:descriptiontrim}

  {dede:item field='title' value='' isunit='' isdown=''}

  {dede:match}

  [内容]{/dede:匹配}

  {dede:function}{/dede:function}

  {/dede:项目}

  {dede:item field='writer' value='' isunit='' isdown=''}

  {dede:match}作者:[内容]{/dede:match}

  {dede:function}{/dede:function}

  {/dede:项目}

  {dede:item field='source' value='' isunit='' isdown=''}

  {dede:match}来源:[内容]{/dede:match}

  {dede:function}{/dede:function}

  {/dede:项目}

  {dede:item field='pubdate' value='' isunit='' isdown=''}

  {dede:match} 发表于:[内容]{/dede:match}

  {dede:function}@me=GetMkTime(@me);{/dede:function}

  {/dede:项目}

  {dede:item field='body' value='' isunit='1' isdown='1'}

  {dede:match}

  [内容]

  {/dede:匹配}

  {dede:function}{/dede:function}

  {/dede:项目}

  {/dede:itemconfig}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线