文章采集功能(本文如何采集指定节点和如何导出采集内容?(组图))
优采云 发布时间: 2021-11-20 23:15文章采集功能(本文如何采集指定节点和如何导出采集内容?(组图))
前言:本文为“常用文章采集带有分页的方法”的第三部分。在前面两节的基础上,我们将讨论“如何采集指定节点”和“如何导出采集的内容”进行详细介绍。为了与上一篇保持一致,本文将继续使用上一章的标记。
从第二部分继续。
3.1采集指定节点
点击“Save and Start采集”后,会进入“采集Specify Node”界面,如图(图29),
图 29-采集 指定节点
采集 per page:这是设置每一页需要的采集的数量,采集的间隔可以根据网站是否有防刷新功能来设置.
特殊选项:设置是否检测重复图片,默认为“检测”。
附加选项:该选项共有3种采集模式可供选择:第一种是“监控采集模式(检查当前节点或所有节点是否有新内容)”,选择后,系统只会采集指定节点中更新的内容;第二种是“重新下载所有内容”,选择后系统会采集指定节点的所有内容;第三种是“下载*敏*感*词*网站未下载的内容”,选择后,系统只会采集指定节点未下载的内容,包括之前未下载和更新的内容。
设置并确认无误后,点击“开始采集网页”或“查看*敏*感*词*网址”即可。此时,如果您单击“查看*敏*感*词* URL”,您将看到列表是空的。这是因为新创建的采集节点从来就不是采集,如图(图30)所示,
图 30-查看节点的*敏*感*词* URL
点击“启动采集网页”后,系统将启动采集节点中设置的URL,并出现相关提示,如图31),
图31-采集过程中的提示信息
采集 完成后,再次点击“查看*敏*感*词*网址”或点击页面右上角的“查看已下载”,可以看到已经采集的网址信息,如(图3 2),
图32-查看节点的*敏*感*词*URL
采集成功后,您可以根据实际需要选择页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>采集内容导出”界面,如图(图33),
图 33-采集 内容导出
“默认导出列”:设置导入采集内容的列到
“批量采集选项”:如果采集规则中已经指定了列ID,则可以使用该功能。如果指定的列ID为0,系统会将采集的内容导入到所选列的“默认导出列”中。
“发布选项”:有发布为“普通文档”和“另存为草稿”的选项。
“每批*敏*感*词*”:设置每批*敏*感*词*的数量,不宜过大。
“附加选项”:这是一个多项选择。如果不想采集重复文章标题,可以选择“排除重复标题”;如果想直接从采集收到的内容中生成HTML,可以选择“完成后自动生成并导入”Content HTML;如果想让系统自动识别采集@上的标题名> 列表页面,可以选择“使用列表索引的标题”,一般不建议勾选。