分享:querylist采集微信公众号文章内容的抓取方法【图文】

优采云 发布时间: 2022-12-05 05:09

  分享:querylist采集微信公众号文章内容的抓取方法【图文】

  querylist采集微信公众号文章内容的原理,在公众号所有文章内容都被抓取以后保存成一个字典,然后定时从这个字典里取文章的名字作为文章标题。

  一、获取微信公众号文章名、标题和标签

  1、微信公众号文章内容的抓取方法我们打开微信公众号运营助手,点击素材管理-选取公众号,选择你需要抓取的公众号名称。如图,

  2、微信公众号文章标题的抓取方法我们打开公众号文章,点击右上角的文件---导出---导出原始链接。如图,

  

  3、微信公众号文章标签的抓取方法我们打开你要抓取的公众号,然后点击文章的标题,如图,

  二、数据分析

  1、mongodb数据分析微信公众号文章列表共包含6个栏目,文章列表中每一个栏目都有个空列表,不同的栏目中会有相对应的标题、作者和标签,我们将这六个条目都放到mongodb的表中,

  2、数据分析我们首先分析下该数据库表中有多少条记录,因为该数据库只有六个条目,所以我们先用作者(作者)、标题和标签三个条目遍历一遍,看看有多少条记录。

  分析结果如下:由上表可知:

  

  1)作者(作者)标签及其值多少个数据库中?我们发现有一个值为59,另一个值为3000,还有一个值为69999,真的是有399万的标签。

  2)文章列表中有多少个标签值?可见,文章列表的标签数量为6867个。

  3)总标题出现在多少次列表中?我们看到总标题出现了次,文章页面共有6867个标签值,点击列表下方的“检索标题”查看详情,如图:得到结果如下:我们认为作者标签出现的次数可能是400万左右,标题出现一次的概率应该在0.1%~0.5%,标签标签估计至少有100万个,显然标签值出现的次数在这个数量级。我们继续分析下每个标签有多少条记录,分析结果如下:再次分析可知,标签中出现1次的概率是0.001%,这些标签就是在标题中出现的次数多少,平均值应该为0.0005,即总标题出现1次,标签总条数应该在10万左右。

  再次分析可知,“公众号的好标题”数量少得可怜,不到100条,看来很多标题大家没看上眼就直接忽略了。最后分析总标题出现次数超过10万条的标签数量的标签,我们发现,总条数达到200条,出现1次的概率更是可怜,在0.0001%-0.0005%之间,不难推理,标签标签出现10万条的概率相当于25个可以赚一个亿。

  由上表可知,总的标题条数应该在2600条左右,那么按照首字母大写的原则,如果单字母出现在标题中的条数也有21条的话,那么总共可以赚36个亿,有人直呼太牛了,如果设想总标题出现在标。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线