自动采集发布文章(1.说采集容易出现的错误采集失败的原因及处理方法)
优采云 发布时间: 2022-02-10 19:21自动采集发布文章(1.说采集容易出现的错误采集失败的原因及处理方法)
说说采集容易犯的错误
1.采集因一堆采集错误代码和链接而失败
2.采集成功,返回主页面但不显示
3.采集成功,内容欠缺
以上就是我遇到的问题,下面我就一一告诉大家我的处理方法。因为懒得截图,就不放图了,尽量详细讲解。
第一个问题,为什么 采集 失败
1.链接放置错误
起初我不明白该工具的用途。在规则模式下,我直接放链接,然后就失败了。建议不了解规则原理的朋友可以看看工具使用介绍:文章Batch采集Plugin - 支持自定义规则和批处理url采集@ >,虽然我也会在下一章介绍,但还是建议大家先了解规则
2.采集规则不固定
链接一定要放对,不要放错!!
对应于 [hs_id]
对应[hs_id].html
有序链接使用[规则模式] | 无序链接使用[Specified Mode],其中[hs_id]为[Regular Mode],字母或数字(1或a)为[Specified Mode]
注意:无论是【规则模式】还是【指定模式】,这两种模式中的标题和内容这两条规则都是不变的。唯一改变的是地址规则。地址规则就是我上面写的。
第二个问题,采集成功的彩蛋不显示内容的原因
1.可能是插件错误
程序有或多或少的问题是正常的,只需将其卸载并重新安装即可。
2.发布用户和发布版块
发布用户是您指定的用户。首先,你必须有这个用户,并且填写用户id而不是用户名。如果找不到用户id,打开后台查找。
发布部分也是如此。首先,必须有,其次,id必须正确。
注意:这两条规则不是随便填的
第三个问题,采集成功内容缺失或缺失
这个问题我研究了最久,总觉得采集很多东西都下不来,于是各种研究,从规则到代码,再到正则表达式([ \s\S]+?),上网各种搜索,研究正则表达式的规则,最后测试,数据采集会在第一个代码停止处暂停
即如果内容中出现多个相同的调用码,例如内容调用码为:
内容
内容
但采集规则到这里就会停止
内容
按理应该到这里的
我知道怎么解决这个问题,就是在后面加两个