文章采集规则(本文采集指定节点和“如何导出采集内容”的说明)

优采云 发布时间: 2021-10-07 21:38

  文章采集规则(本文采集指定节点和“如何导出采集内容”的说明)

  前言:本文为《无分页通用文章采集方法》的第三部分。在前两节的基础上,对《如何采集指定Node》和《如何导出采集的内容》进行详细讲解。为了与上一篇保持一致,本节文章将继续使用之前的章节标记。

  接第二部分。

  3.1采集指定节点

  点击“保存并启动采集”后,会进入“采集指定节点”界面,如图(图34),

  

  图 34-采集指定节点

  每页采集:设置每页需要的采集个数,根据网站是否有防刷新功能设置采集的间隔。

  特殊选项:设置是否检测重复图片,默认为“检测”。

  附加选项:该选项共有3种采集模式可供选择:第一种是“监控采集模式(检查当前节点或所有节点是否有新内容)”。选择后,系统只会采集指定节点的更新内容;第二种是“重新下载所有内容”,选择后系统会采集指定节点的所有内容;第三种是“下载*敏*感*词*网站未下载的内容”,选择后,系统只会采集指定节点未下载的内容,包括之前未下载和更新的内容。<//p

p设置完成并确认后,您可以点击“开始采集网页”或“查看*敏*感*词*网址”。此时,如果您单击“查看*敏*感*词* URL”,您将看到列表是空的。这是因为新创建的采集节点从来就不是采集,如图(图35)显示,/p

pimg src='https://www.ajie5.com/../../../uploads/18751582345767.png' alt='Dedecms采集功能的使用方法 --- 不含分页的普通文章(三)'//p

p图35-查看节点的seed URL/p

p点击“开始采集网页”后,系统将启动采集节点中设置的URL,并出现相关提示,如图36),< /@采集 p>

  

  

  

  图 36-采集提示消息进行中

  采集 完成后,再次点击“查看*敏*感*词*网址”或点击页面右上角的“查看已下载”,可以看到已经采集的网址信息,如图在(图37)如图,

  

  图37-查看节点的seed URL

  采集成功后,您可以根据实际需要选择页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>采集内容导出”界面,如图(图38),

  

  图 38-采集内容导出

  “默认导出列”:设置将采集的内容导入到

  的列

  “批量采集选项”:如果采集规则中已经指定了列ID,则可以使用该函数。如果指定的列ID为0,系统会将采集导入到“默认导出列”中选择的列中。

  “发布选项”:有发布为“普通文档”和“另存为草稿”的选项。

  “每批次导入”:设置每批次导入的项目数。这个数字不能太大。

  “带选项”:这是一个多项选择。如果不想采集重复文章标题,可以选择“排除重复标题”;如果想直接从采集接收到的内容生成HTML,可以选择“完成后自动生成并导入Content HTML”;如果想让系统自动识别采集列表页的标题名称,可以选择“使用列表索引的标题”。一般不建议勾选。

  “随机推荐”:填写一个数字,代表文档的数量。推荐的文档随机出现在输入的文档数量中。如果输入“0”,则表示不推荐。

  设置完成后,可以点击“确定”将下载的项目导入到选中的列中,如图(图39),

  

  图39-采集设置后的内容导出页面

  同时系统会提示导出过程,如图(图40),

  

  

  图40-采集内容导出时的提示信息

<p>导出采集 内容提示“完成所有栏目列表更新”后,点击“浏览栏目”,即可进入网站的相关页面查看采集到的文章List 及其具体内容。也可以在后台管理界面的主菜单中点击“核心”,然后点击“常用文章”进入“文档列表”页面,从

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线