文章采集功能(本文采集指定节点和“如何导出采集内容”的说明)
优采云 发布时间: 2021-09-08 17:18文章采集功能(本文采集指定节点和“如何导出采集内容”的说明)
前言:本文为《无分页的常见文章采集方法》第三部分。在前两节的基础上,我们将讨论“如何采集指定节点”和“如何导出采集内容”进行详细说明。为与上一篇保持一致,本文将继续沿用之前的章节标记。
接第二部分。
3.1采集指定节点
点击“保存并启动采集”后,会进入“采集指定节点”界面,如图(图34),
(本图来源于网络,如有侵权请联系删除!)
图34-采集指定节点
采集每页:设置每页需要的采集个数,根据网站是否有防刷新功能设置采集间隔。
特殊选项:设置是否检测重复图片,默认为“检测”。
附加选项:该选项有3种采集模式可供选择:第一种是“监控采集模式(检查当前或所有节点是否有新内容)”,选择后系统只会采集采集 指定节点的更新内容;第二种是“重新下载所有内容”,选择后系统会采集指定节点的所有内容;第三种是“下载seed网站未下载的内容”,选择后系统只会采集指定节点未下载的内容,包括之前未下载和更新的内容。
设置完成并确认后,您可以点击“Start采集Webpage”或“查看*敏*感*词*网址”。此时,如果您单击“查看*敏*感*词* URL”,您将看到列表是空的。这是因为新创建的采集节点从来就不是采集,如图(图35),
(本图来源于网络,如有侵权请联系删除!)
图35-查看节点的seed URL
点击“启动采集网页”后,系统会启动采集节点中设置的URL,会出现相关提示,如图36),
(本图来源于网络,如有侵权请联系删除!)
(本图来源于网络,如有侵权请联系删除!)
(本图来源于网络,如有侵权请联系删除!)
图 36-采集Prompt 消息进行中
采集结束后,再次点击“查看*敏*感*词*网址”或者点击页面右上角的“查看已下载”,可以看到已经采集的网址信息,如(图3 7) 显示,
(本图来源于网络,如有侵权请联系删除!)
图37-查看节点的seed URL
采集成功后,可以根据实际需要选择页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>采集内容导出”界面,如图(图38),
(本图来源于网络,如有侵权请联系删除!)
图 38-采集Content 导出
“默认导出列”:设置导入采集内容的列
“批量采集option”:如果采集规则中已经指定了列ID,则可以使用该函数。如果指定的列ID为0,系统会将采集内容导入到“默认导出列”“选定列”中。
“发布选项”:有发布为“普通文档”和“另存为草稿”的选项。
“每批次导入”:设置每批次导入的项目数。这个数字不能太大。
“有选项”:这是一个多项选择。如果不想采集重复文章标题,可以选择“排除重复标题”;如果希望采集接收到的内容直接生成HTML,可以选择“完成后自动生成导入的内容HTML”;如果需要系统会自动识别采集列表页面上的标题名称,您可以选择“使用列表索引的标题”。一般不建议勾选。
“随机推荐”:填写一个数字,代表文档的数量。推荐的文档随机出现在输入的文档数量中。如果输入“0”,则表示不推荐。
设置完成后,可以点击“确定”将下载的项目导入到选中的列中,如图(图39),
(本图来源于网络,如有侵权请联系删除!)
图39-采集设置后的内容导出页面
同时系统会提示导出过程,如图(图40),
(本图来源于网络,如有侵权请联系删除!)
(本图来源于网络,如有侵权请联系删除!)
(本图来源于网络,如有侵权请联系删除!)
图40-采集内容导出中的提示信息
导出采集内容提示“完成所有栏目列表更新”后,点击“浏览栏目”,即可进入网站相关页面查看采集到文章列表及其具体内容。也可以在后台管理界面的主菜单中点击“Core”,然后点击“Common文章”进入“文档列表”页面,从采集查看文章列表,如图(图41)显示,
(本图来源于网络,如有侵权请联系删除!)
图 41-文档列表
到目前为止,采集已经成功到达目标网站的文章内容。
综上所述,采集“普通文章无分页”比较简单。由于本文文章是基础教程,所以没有涉及太多“过滤规则”。 “常用文章带分页”的采集方法以及过滤规则的使用将在下一篇文章中介绍。
附上本文的采集rule:
{dede:listconfig}
{dede:noteinfo notename="采集测试(一)" channelid="1" macthtype="string"
refurl="" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="http://" regxurl="(*).html"
startid="1" endid="1" addv="1" urlrule="area"
musthas=".html" nothas="" listpic="1" usemore="0"}
{dede:addurls}{/dede:addurls}
{dede:batchrule}{/dede:batchrule}
{dede:regxrule}{/dede:regxrule}
{dede:areastart}
{/dede:areastart}
{dede:areaend}
{/dede:areaend}
{/dede:listrule}
{/dede:listconfig}
{dede:itemconfig}
{dede:sppage sptype='full' sptype='full' srul='1' erul='5'}{/dede:sppage}
{dede:previewurl}{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descriptiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
{dede:match}
[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='writer' value='' isunit='' isdown=''}
{dede:match}作者:[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='source' value='' isunit='' isdown=''}
{dede:match}来源:[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='pubdate' value='' isunit='' isdown=''}
{dede:match} 发布于:[Content]{/dede:match}
{dede:function}@me=GetMkTime(@me);{/dede:function}
{/dede:item}
{dede:item field='body' value='' isunit='1' isdown='1'}
{dede:match}
[内容]
{/de:match}
{dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}
上一篇:如何使用Dedecms采集功能---图片采集(一)
下一篇:Dedecms采集函数的使用方法---不分页的普通文章(二)
声明:本站所有文章和图片均来自用户分享和网络采集。 文章及图片版权归原作者所有。仅供学习和参考。请不要将它们用于商业目的。如果您的权益受到损害,请联系网站客服。
Eyoucms,易于使用的enterprise网站管理系统,点击了解更多
有什么问题可以加入织梦技术QQ群一起交流学习
本站VIP会员请加入织梦58 VIP②群 PS:加入时请备注您的用户名或昵称
普通注册会员或访客请加入织梦58技术交流②群
来源:网友提供 关注:时间:2018-01-28 12:48
☉首先,只要是我们的VIP会员,所有源代码都可以免费下载,没有任何限制(了解更多)
☉本站源码不会像其他下载站那样植入大量广告。为了更好的用户体验,以后坚持不打印水印
☉本站只提供精品织梦源代码,源代码可用,不多! !希望在这里找到合适的你。
☉本站提供的整个织梦程序都有数据和演示地址。可以在任意源码详情页查看demo地址
☉本站所有资源(包括源代码、模板、素材、特效等)仅供学习参考,请勿用于商业用途。
☉如有其他问题,请加网站客服QQ(970003436))交流。