微信文章采集的一些基础概念
优采云 发布时间: 2020-08-25 18:10微信文章采集的一些基础概念
背景
经常有人问我陌陌文章采集相关的基础常识问题,对于菜鸟来说,一些概念性的问题确实不太了解。但时常被问得也烦了,所以单独写一篇文章总结一些。
对于一些公众号文章/阅读量等插口采集需求,可参见此插口文档,也可直接访问我的网站进行免费测试。
公众号文章发布相关概念
单次发布
单次发布指公众号在同一时间发布的单篇/多篇文章(文章数量在1-8篇)。
日发文次数
一般来说,一个公众号每日只能发布一次,但部份政务/自媒体类型的公众号可发文多次。
公众号历史文章列表
公众号的历史文章列表是根据发布时间排序的,最新发布的排在最前面。一般来说,接口每次返回近来10次发布,也就是10-80篇文章。
微信文章相关数组介绍
文章链接
公众号文章链接可分为临时链接和永久链接,其中永久链接又可分为短链接和长链接两种。
临时链接是从搜狗陌陌获取到的,有效期为6小时。
永久链接是从陌陌app里获取得到的,不会过期(短链接可能在很久以后会失效)。
# 临时链接(搜狗陌陌)
# 永久链接-长链接
# 永久链接-短链接
对于文章采集,能直接采集到永久链接是最好的,否则须要将临时链接转为永久链接(如果只须要采集文章内容,可以在临时链接失效前及时采集)。
biz数组
biz是公众号的惟一ID标示,biz本身是一个base64编码的字符串,如: MjM5MjAxNDM4MA==
biz可以在文章的网页源码里找到(如下图),如果是长链接,链接里__biz参数的值就是biz。
值得注意的是,如果公众号被迁移了,biz也会修改。
alias
alias是公众号的对外id,通俗也叫accountId,比如公众号-人民日报的alias是rmrbwx。
值得注意的是,如果公众号作者没有主动设置,alias为空,此时通常用username作为默认id替代。
nickname
公众号名称/昵称,比如【人民日报】。
username
公众号原创id,每个公众号都有,以gh_开头,如:gh_363b924965e9。
author
文章发布作者,不设置的时侯为空。
mid
文章发布的序号id,同一批次发布的文章拥有相同的mid,这个值是递增的。
idx
文章发布的位置,在同一批次发布的文章里,idx的值从1开始递增,其中1代表头条(第一篇文章),以此类推。
文章发布时间
需要注意的是:搜狗陌陌和陌陌app里的文章发布时间是有轻微区别的,不一定完全相等。
为了100%保证文章发布次序,请使用mid进行判定。
总结
以上是我觉得采集微信文章前须要理解的基础概念,这样能市掉以后的一些解构麻烦~
ps:此文已在本人知乎号上首发:微信公众号文章采集的一些基础概念