文章采集器阿里妈妈新功能“智能采集”,试图破解公众号粉丝持续涨幅难题
优采云 发布时间: 2022-06-04 15:02文章采集器阿里妈妈新功能“智能采集”,试图破解公众号粉丝持续涨幅难题
文章采集器阿里妈妈新功能“智能采集”,试图破解公众号粉丝持续涨幅难题作者|霍盛春摘要:中国网民每人每天都能收到几十万个公众号文章,中国微信用户已经达到7.82亿,每人每天至少推送10篇文章。现有的公众号推送机制已经无法支撑这么大的数量,将如何影响公众号粉丝的持续增长?本文结合移动端数据和历史淘宝交易情况,以新浪社区最热的20000条文章为模型样本,以文章的分类为维度,试图通过推文形式和文章封面信息的推送频率(百分比)识别哪个账号最可能是粉丝增长的关键?用如何的技术来识别推文的影响因素?文章介绍:日推送量分布、互动频率、二次转发率图谱、粉丝属性。作者介绍:新浪微博前端技术总监黎小伟,本文简单介绍了文章推送的由来及背后的技术。
一、那些“骚文”动辄5000到10000个阅读量的公众号,粉丝增长是如何实现的?想要实现粉丝快速增长,经常会碰到阅读量增加是被“骚扰”,这里我给大家推荐几款公众号“骚扰”粉丝增长的小技巧:推送送礼,骚扰单位比较划算;定时邀请读者留言互动;买热点软文;做推送排期等等。
二、社区最热的20000篇文章分析1.过往20000篇文章数据获取现在文章中不包含自己的公众号二维码,我们现在采集的文章基本都是原创文章,这些文章全部都是新浪微博的原创,因此这些文章我们都以原创文章的形式在新浪微博去爬取。由于微博能获取数据的url不多,不太容易爬取到新浪公众号最新的最热文章,因此这里我们采用“阿里妈妈”(同样也是个大网站)阿里妈妈平台的数据来爬取新浪微博公众号最新文章,一共20000篇文章。
2.过往20000篇文章词云图数据的背后是人工筛选过的“关键词”,根据本文中每篇文章使用的分类词语就不做作者介绍了,就不多说。获取到这20000篇文章中所有词语的图,作者以“音乐”为词语类别,做了词云图进行识别。词云图共包含76840个单词,分布在36个词语分类下,词云图主要分布在“热门歌曲”、“明星”、“社区”、“网红”、“文娱”五个词语分类。
词云图有几个优点:
1)数据非常符合现实生活:既没有形容词,
2)词云图分布均匀,大家都知道没有热词,就不存在热度不同的问题,让我们提高了识别准确度。词云图根据词语分布显示了词语的热度依次是“网红”“音乐”,但同时词语的热度还在一定程度上反映出文章的内容偏向“娱乐”和“网络”。