自动采集编写(接下来采集的数据入库入口及解决办法(二))

优采云 发布时间: 2022-03-09 22:13

  自动采集编写(接下来采集的数据入库入口及解决办法(二))

  ,蓝色的内容选择了所有的内容,知道是真正的文章内容的容器。将内容前后的标签复制到匹配规则中。至此,内容的过滤就设置好了,接下来就是预览效果了。完成图附上5.2

  

  6. 节点采集

  如果你的dedecms采集节点一气呵成,测试成功,按提示点击按钮,直接采集即可,但是节点是之前写的,你需要进入“节点管理”“页面”,勾选节点为采集,按“采集”按钮到采集。如果要采集为所有节点添加新内容,请进入监控采集页面。

  每页采集可以设置每页采集的数据条目数。一般来说,不宜设置过大,否则可能会导致系统处理,有些采集无法到达。建议不要超过15。

  线程数是指每次有多少线程同时执行采集。增加线程数可以加快采集的速度,但是会增加对服务器资源的占用,请谨慎使用。如果目标站点有反刷新限制,可以根据目标站点的反刷新限制时间进行设置。如果不是,则默认值为 0 秒。

  附加选项 这三个设置字面上应该很容易理解,所以根据你的实际需要来选择。

  7. 采集 之后的处理

  dedecms采集完成后,点击“查看Torrent URL”查看采集的结果。这是 采集 返回的列表。可以点击查看采集的内容是否有问题。

  此列表中的某些数据可能会显示为“未下载”,这可能是 采集 的设置数量过大造成的。在这种情况下,您只需在上述采集的“附加选项”中选择“仅下载未下载的内容”,然后再次进行采集即可。如果要删除一些不满意的数据,可以在列表中要删除的数据前面打勾,然后按“删除选定的URL”。这里支持批量操作。

  8. 存储来自 采集 的数据

  这里有多个条目:

  1) 在节点管理页面中选择刚刚采集的节点,然后点击下方的“导出数据”按钮进入存储操作。

  2) 直接点击采集的节点进入“临时内容管理”页面,点击右上角的“导出内容”按钮进入存储操作。

  3) 选择节点后,点击“采集”按钮进入采集页面,右上角有一个“导出数据”按钮,也可以点击进入存储操作页面

  (注意:导出数据时,请勾选“排除重复标题”选项,避免重复导入内容。如果重复导入内容,可以使用后台批处理检测重复标题的功能进行修复。)

  首先选择您要导入的列,然后在弹出的窗口中按“请选择”选择您要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否无关紧要。附加选项通常是“排除重复标题”。至于自动生成HTML的选项,建议先不要生成,因为我们要批量提取摘要和关键词

  以上是清风为大家建站的dedecms采集方法,但是从SEO的角度来看,采集的内容收录率比较低,而且排名也很高。不是很好。很多采集被惩罚,质量原创内容比采集好。清风网站提供专业优质的网站制作服务,包括织梦网站建设、网站建设、SEO、网络营销、PHP开发、网站知名网站建设品牌、全国接单,为企业搭建强大的营销平台。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线