本文采集指定节点和“如何导出采集内容”的介绍

优采云 发布时间: 2021-08-02 23:15

  本文采集指定节点和“如何导出采集内容”的介绍

  前言:本文是《常见的文章采集带有分页的方法》的第三部分。在前面两节的基础上,我们将讨论“如何采集指定节点”和“如何导出采集content”进行详细介绍。为与上一篇保持一致,本文将继续沿用之前的章节标记。

  接第二部分。

  3.1采集指定节点

  点击“保存并启动采集”后,会进入“采集指定节点”界面,如图(图29),

  

  图29-采集指定节点

  采集per page:这个是设置每页需要采集的数量,采集间隔可以根据网站是否有防刷新功能来设置。

  特殊选项:设置是否检测重复图片,默认为“检测”。

  附加选项:该选项有3种采集模式可供选择:第一种是“监控采集模式(检查当前或所有节点是否有新内容)”,选择后系统只会采集采集 指定节点的更新内容;第二种是“重新下载所有内容”,选择后系统会采集指定节点的所有内容;第三种是“下载seed网站未下载的内容”,选择后系统只会采集指定节点未下载的内容,包括之前未下载和更新的内容。

  完成设置并确认无误后,即可点击“Start采集Webpage”或“查看*敏*感*词*网址”。此时,如果您单击“查看*敏*感*词* URL”,您将看到列表是空的。这是因为新创建的采集节点从来就不是采集,如图(图30),

  

  图30-查看节点的seed URL

  点击“启动采集网页”后,系统会启动采集节点中设置的URL,会出现相关提示,如图31),

  

  

  

  图 31-采集Prompt 消息进行中

  采集结束后,再次点击“查看*敏*感*词*网址”或者点击页面右上角的“查看已下载”,可以看到已经采集的网址信息,如(图3 2) 显示,

  

  图32-查看节点的seed URL

  采集成功后,可以根据实际需要选择页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>采集内容导出”界面,如图(图33),

  

  图 33-采集Content 导出

  “默认导出列”:设置导入采集内容的列

  “批量采集option”:如果采集规则中已经指定了列ID,则可以使用该函数。如果指定的列ID为0,系统会将采集内容导入到“默认导出列”“选定列”中。

  “发布选项”:有发布为“普通文档”和“另存为草稿”的选项。

  “每批次导入”:设置每批次导入的项目数。这个数字不能太大。

  “有选项”:这是一个多项选择。如果不想采集重复文章标题,可以选择“排除重复标题”;如果希望采集接收到的内容直接生成HTML,可以选择“完成后自动生成导入的内容HTML”;如果需要系统会自动识别采集列表页面上的标题名称,您可以选择“使用列表索引的标题”。一般不建议勾选。

  “随机推荐”:填写一个数字,代表文档的数量。推荐的文档随机出现在输入的文档数量中。如果输入“0”,则表示不推荐。

  设置完成后,可以点击“确定”将下载的项目导入到选中的列中,如图(图34),

  

  图34-采集设置后的内容导出页面

  同时系统会提示导出过程,如图(图35),

  

  

  图35-采集内容导出中的提示信息

  导出采集内容提示“完成所有栏目列表更新”后,点击“浏览栏目”,即可进入网站相关页面查看采集到文章列表及其具体内容。也可以在后台管理界面的主菜单中点击“Core”,然后点击“Common文章”进入“文档列表”页面,从采集查看文章列表,如图(图36)显示,

  

  图 36-文档列表

  在文档列表中,点击“用最简单的网络学习IP和ARP协议”的预览按钮,打开文章内容页面,找到页面的换页部分,如图(图37),

  

  图 37-分页

  可以看到收录分页文章的内容已经成功采集到达。

  综上所述,本文详细介绍了如何将采集一个普通的文章类型页面带分页,简单涉及到过滤规则。对于采集更复杂的普通文章类型页面以及过滤规则的使用,以后会在文章中引入。

  采集本文规则:

  

{dede:listconfig}

{dede:noteinfo notename="采集测试(二)" channelid="1" macthtype="string"

refurl="http://www.bitscn.com/network/protocol/201105/193110.html" sourcelang="gb2312" cosort="asc"

isref="no" exptime="10" usemore="0" /}

{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.bitscn.com/network/protocol/list_(*).html"

startid="1" endid="1" addv="1" urlrule="area" musthas=""

nothas="" listpic="1" usemore="0"}

{dede:addurls}{/dede:addurls}

{dede:batchrule}{/dede:batchrule}

{dede:regxrule}{/dede:regxrule}

{dede:areastart}{/dede:areastart}

{dede:areaend}{/dede:areaend}

{/dede:listrule}

{/dede:listconfig}

{dede:itemconfig}

{dede:sppage sptype='full' srul='1' erul='5'}[内容]{/dede:sppage}

{dede:previewurl}http://www.bitscn.com/network/protocol/201105/193110.html{/dede:previewurl}

{dede:keywordtrim}{/dede:keywordtrim}

{dede:descriptiontrim}{/dede:descriptiontrim}

{dede:item field='title' value='' isunit='' isdown=''}

{dede:match}[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}{dede:item field='writer' value='' isunit='' isdown=''}

{dede:match}{/dede:match}

{dede:function}{/dede:function}

{/dede:item}{dede:item field='source' value='' isunit='' isdown=''}

{dede:match}来源:[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''}

{dede:match}时间:[内容] {/dede:match}

{dede:function}{/dede:function}

{/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'}

{dede:match}[内容]{/dede:match}

{dede:trim replace=""}(.*){/dede:trim}

{dede:trim replace=""}(.*){/dede:trim}

{dede:trim replace=""}(.*){/dede:trim}

{dede:function}{/dede:function}

{/dede:item}

{/dede:itemconfig}

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线