蓝色内容选中全部内容,知道为文章内容的真正容器
优采云 发布时间: 2021-01-23 10:31蓝色内容选中全部内容,知道为文章内容的真正容器
,蓝色内容选择了所有内容,知道它是文章内容的真实容器。将内容前后的标签复制到匹配规则。
至此,内容过滤设置已完成,下一步是预览效果,并带有完整的图片5.2
(图片5.2)
6.节点采集
如果您的采集节点一次性完成,并且测试成功,请按提示并单击按钮,您可以直接采集,但是该节点之前已写入,您需要转到“节点” “管理页面”以检查采集节点,然后按“ 采集”按钮继续进行采集。如果要采集所有节点的新内容,请转到监视采集页面进行操作。
每页采集可以设置每页采集的数据项数。一般而言,请勿将其设置得太大,否则系统可能无法处理它,并且某些采集无法处理。建议不要超过15。线程数是指每次同时运行多少个线程采集。增加线程数可以加快速度采集,但是会相应增加服务器资源的使用率,因此请谨慎使用。如果目标站点有抗刷新限制,则可以根据目标站点的抗刷新限制时间在此处进行设置。如果不是,则默认值为0秒。从字面上看,这三个附加选项应该很容易理解,因此您可以根据实际需要进行选择。
7.采集后处理
采集完成后,单击“查看*敏*感*词*URL”以输入采集的结果。这是采集返回的内容的列表。您可以单击以检查采集的内容是否存在问题。
此列表中的某些数据可能显示为“未下载”。原因可能是采集的数量太大。在这种情况下,您只需要在上方采集的“其他选项”中选择“仅下载未下载的内容”,然后再次进行采集。如果要删除一些不满意的数据,可以在列表中要删除的数据前面打勾,然后单击“删除选定的URL”。这里支持批处理操作。
8.将采集的数据存储在数据库中
这里有多个条目:
1)在节点管理页面中选择采集的节点,然后单击下面的“导出数据”按钮以输入存储操作。
2)直接单击采集的节点以进入“临时内容管理”页面,然后单击右上角的“导出内容”按钮进入存储操作。
3)选择节点后,单击“ 采集”按钮进入采集页面。右上方有一个“导出数据”按钮,单击后也可以进入仓库操作页面。
<p>(注意:请选中导出数据的“排除重复标题”选项,以避免重复的导入内容。如果导入了重复内容,则可以在后台批处理中使用检测重复标题的功能进行修复)