文章采集功能(本文如何采集指定节点和如何导出采集内容?(组图))

优采云 发布时间: 2021-11-20 23:15

  文章采集功能(本文如何采集指定节点和如何导出采集内容?(组图))

  前言:本文为“常用文章采集带有分页的方法”的第三部分。在前面两节的基础上,我们将讨论“如何采集指定节点”和“如何导出采集的内容”进行详细介绍。为了与上一篇保持一致,本文将继续使用上一章的标记。

  从第二部分继续。

  3.1采集指定节点

  点击“Save and Start采集”后,会进入“采集Specify Node”界面,如图(图29),

  图 29-采集 指定节点

  采集 per page:这是设置每一页需要的采集的数量,采集的间隔可以根据网站是否有防刷新功能来设置.

  特殊选项:设置是否检测重复图片,默认为“检测”。

  附加选项:该选项共有3种采集模式可供选择:第一种是“监控采集模式(检查当前节点或所有节点是否有新内容)”,选择后,系统只会采集指定节点中更新的内容;第二种是“重新下载所有内容”,选择后系统会采集指定节点的所有内容;第三种是“下载*敏*感*词*网站未下载的内容”,选择后,系统只会采集指定节点未下载的内容,包括之前未下载和更新的内容。

  设置并确认无误后,点击“开始采集网页”或“查看*敏*感*词*网址”即可。此时,如果您单击“查看*敏*感*词* URL”,您将看到列表是空的。这是因为新创建的采集节点从来就不是采集,如图(图30)所示,

  图 30-查看节点的*敏*感*词* URL

  点击“启动采集网页”后,系统将启动采集节点中设置的URL,并出现相关提示,如图31),

  图31-采集过程中的提示信息

  采集 完成后,再次点击“查看*敏*感*词*网址”或点击页面右上角的“查看已下载”,可以看到已经采集的网址信息,如(图3 2),

  图32-查看节点的*敏*感*词*URL

  采集成功后,您可以根据实际需要选择页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>采集内容导出”界面,如图(图33),

  图 33-采集 内容导出

  “默认导出列”:设置导入采集内容的列到

  “批量采集选项”:如果采集规则中已经指定了列ID,则可以使用该功能。如果指定的列ID为0,系统会将采集的内容导入到所选列的“默认导出列”中。

  “发布选项”:有发布为“普通文档”和“另存为草稿”的选项。

  “每批*敏*感*词*”:设置每批*敏*感*词*的数量,不宜过大。

  “附加选项”:这是一个多项选择。如果不想采集重复文章标题,可以选择“排除重复标题”;如果想直接从采集收到的内容中生成HTML,可以选择“完成后自动生成并导入”Content HTML;如果想让系统自动识别采集@上的标题名> 列表页面,可以选择“使用列表索引的标题”,一般不建议勾选。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线