采集文章内容(今日头条的4.5万条文章数据进行多维度分析(组图))

优采云 发布时间: 2022-03-30 17:25

  采集文章内容(今日头条的4.5万条文章数据进行多维度分析(组图))

  指导:

  本项目对今日头条的4.50,000文章数据进行多维度分析,从以下三个步骤进行阐述:

  解释数据来源并提出分析问题;简述数据清洗和提取的关键步骤;针对问题,从类别分析、标签分析、作者分析、评论分析四个方面对数据进行可视化分析。

  使用的工具:MySQL、Python、Tableau。

  阅读大约需要 15 分钟。

  一、数据描述和定位问题

  (1)数据来源及数据说明

  本项目使用爬虫软件分析今日头条网站上44个类别的文章,共45020条数据采集,字段包括:爬取时间、爬取链接、文章Title, 文章Abstract, 文章Content, 文章Cover Image, Author ID, Author, Author Avatar, Post Date Stamp, Tag, Number of Comments, 共12个字段,其中有一些字段在本次分析中没有用到,在数据处理过程中会被删除。

  (2)位置分析问题

  根据现有数据的维度,围绕四个方面提出具体问题:

  二、数据处理

  (1)数据导入

  导入数据时,需要注意个别变量数据类型的修改。否则会出现某些类型的不匹配,或者单元格字符串的长度超过默认数据类型的限制,导致某些数据导入失败。修改导入数据类型如下图:

  

  导入完成后显示45020条数据导入成功,如下图所示:

  

  (2)缺失值,异常值处理

  检查每列数据的缺失值和异常值,发现“发布时间”列中同时存在缺失值和错误值,删除缺失值的行;对于不正确的值,通过“Crawling Link”列对应的URL查找。原文,错误值会更正。

  

  “作者 ID”一栏有 6 个缺失值。由于每个作者在数据集中一般不会只出现一次,通过在数据集中搜索,填满5个,直接删除另一个。

  

  最后,删除该项目不需要的数据列。MySQL中的初始数据处理语句及处理效果如下图所示:

  

  MySQL处理语句

  

  初步治疗效果

  (1)数据导入和清理:

  2018年8月1日之后使用Python操作数据库导入数据,切片截取数据,由于今日头条的瀑布式信息展示方式,爬虫可能会重复采集同一篇文章文章,因此,需要根据“作者ID”和“文章标题”进行去重。另外,通过数据描述发现,有一条数据的发布日期为非法值“2030-01-01”。通过爬取URL查看原文,更正了该条数据的日期。

  处理后,剩下44984条数据。

  (2)文本数据处理

  “内容”栏中有 HTML 垃圾代码,使用正则表达式将其删除。

  “categoris”栏需要提取汉字,删除无用符号。

  “tags”列的原创格式为:["A","B","C","D","E"],每个文章最多有5个标签,需要替换这里通过字符串和切分方式,处理成“A、B、C、D、E”的格式,方便后续统计。处理前后的样例效果如下图所示:

  

  (3)统计文章时间分布

  将最终清洗筛选后的数据在时间“天”维度上进行汇总,可以发现这个采集的数据主要是11月左右的文章,8、9、10 文章 三个月的数量比较少。很多文章都是追求时效的,所以这个分布比较符合实际情况。

  

  三、数据分析

  3.1 文章分类分析

  问:文章的类别分布是什么,哪些类别的文章最多?

  

  结论:娱乐类文章数量最多,其次是美妆、汽车、健康、家居,均在3000+,第6-10位分别是美食、体育、历史、旅游、科技。

  根据艾瑞指数,今日头条的用户主要集中在东部沿海地区、环渤海经济圈、长江经济带等经济发达省份。这些用户构成了今日头条的主要用户群。无论是从物质层面还是精神层面,他们不断增长的需求,直接导致了相关类别内容的增多。

  

  3.2 文章标签分析

  问题:不同类别的作者喜欢写什么关键词

  对文章关键词的统计分析可以帮助我们发现,在不同的垂直内容领域,哪些特定的事件或角色最近比较流行,并且被大量的自媒体作者追捧,所以我们可以在不同的垂直内容领域找出最近流行的特定事件或角色。识别热门趋势。根据上述文章类别分布排名,分析出几个有代表性的垂直分类标签。

  (1)娱乐

  

  “综艺”和“影视”作为人们日常生活休闲的重要载体,一直是娱乐内容的常青树,明星八卦也时常成为闲聊话题。艾瑞指数显示,今日头条男性用户占比接近三分之二,美星对她们的吸引力更大,尤其是近期霸占各类娱乐头条的赵丽颖唐嫣结婚消息,形成重度娱乐热点。

  

  艾瑞指数:今日头条用户性别分布

  (2)美国文学

  

  美国文学更多的是一种精神范畴,“鸡汤”已经成为美国文学的第一名。关键词,现代社会的人普遍更容易焦虑,而一碗能直击人心、给人温暖或鼓舞的“鸡汤”,恰好能振奋人心,激励他们奋发向上,只是就像心中的一*敏*感*词*,让人积极乐观地面对生活;而“婚姻”和“情感”是文章或者可以抚慰心灵,或者可以引起共鸣,“阅读”可以让人体验别人的故事,和作者关系好,“和平”可以渲染一种清新脱俗,“酒”可以增添情趣,麻醉神经。

  (3)健康类

  

  随着生活水平的不断提高,为了更长寿,人们更加关注自身的健康状况,“养生”成为热门话题。同时,也不再是*敏*感*词*的专利。青少年生活压力加大,作息不规律。,不良的饮食习惯会导致身体亚健康状态,都或多或少地关注“健康”和“睡眠”的质量;人们更加崇尚“中医”在“健康”中的重要作用,并认识和推广了几千年。此外,“心血管”疾病、“高血压”、“糖尿病”已成为影响国民健康的重要杀手。这些病无法治愈,所以“

  (4)食物

  

  “做菜”作为居家必备技能,绝对是美食爱好者必须探索的领域。“为什么同样的材料别人做的味道那么好,而我做的就一般?” 像这样的问题很常见。究其原因,无非是对“厨艺”的掌握和各种“调味料”的运用。添加的顺序和添加结果的时机不同;名单上的调味料包括“酒”(既可以作为食物的佐料,也可以作为调味品)、“生抽”(几乎是烹饪所必需的)、“料酒”(用于肉类食品的除臭)、“辣椒” ”(刺激食欲)、“花”(改善容貌和情绪);“鱼”做饭应该是一道难题,而这种文章 刚刚解决了 人们喜欢吃鱼,但是他们在做鱼方面并没有太大的麻烦;对于吃货来说,“零食”是他们必须探索的神秘之地,可以满足他们的好奇心,拓宽他们的“吃”视野。

  (5)运动

  

  运动和娱乐非常相似。它们都是人们日常生活中不可缺少的休闲物品,但体育话题更受男性用户的欢迎。三大球中的“足球”和“篮球”常年占据信息热点,尤其是“NBA”。如果你在各个小区的运动场走一圈,你会发现篮球的消费成本要比足球低很多。这也从侧面说明。为什么“篮球+NBA”中有更多关键词。从图片中可以看出,近期“勒布朗-詹姆斯加盟洛杉矶湖人队”成为体育爱好者的热议话题,“明星球员+明星球队”的组合无疑成为炒作爆炸;

  (6)技术

  

  “科技”领域的主角包括“移动互联网”和终端载体“智能手机”两部分。“马先生”创办的“阿里巴巴”,作为中国“电商”领域的超级巨头,一直是媒体报道的焦点;从全球来看,各大手机厂商每年都会发布大量新机型。以“华为”为傲,不断挑战“三星”和“苹果”的地位。新手机的评测和对比可以帮助买家参考;移动互联网时代,手机只是硬件平台,手机上的“软件”只有应用才能为用户提供落地服务,所以关于“软件”的文章

  3.3 作者分析

  问题:哪些作者的生产力最高?作者的类别分布是什么?作者综合评分表?

  作者输出的分析可以帮助我们了解哪些作者更新更频繁,更关注用户;作者的类别分布可以显示哪些领域更具竞争力;作者的综合得分可以反映作者的表现。整体素质如何,在大局中排名。

  (1)作者收益分析

  

  输出最多的自媒体“天天品故事”,垂直类“故事”类,从上面的分析可以看出,故事类不在文章@总数的前10名>,证明这个自媒体属于“故事”范畴。“故事”类优势明显;“美食官”位居第二,是“美食”类的唯一*敏*感*词*;“健康”类自媒体占据了半壁江山,似乎拥有得天独厚的资源,或者属于“健康”类。只有深耕领域中的某个分支,才有出路;《美容杂志》的“时尚”类、“直播吧”的“运动”类和“香丝文客”的“美式文”类各占一席。

  让我们看一下所有 20467 个 自媒体 收益率的整体分布:

  

  数据严重向右倾斜,输出最少 1 篇,最多 138 篇,中位数 1 篇,上四分位数只有 2 篇。可以看出,至少有四分之三的自媒体只发表了1~2篇文章。

  根据情况不断更新内容是自媒体生存和发展的前提。为了保持用户粘性,内容更新的频率需要保持在合理的高水平。

  (2)作者类别分布

  

  分布前三名作者与文章人数分布前三名重叠,“娱乐”类自媒体人数与文章人数相同,排名第一,远超第二名类别和第三名的“美国文学”类别的“汽车”数量;也是排名第一的“技术”类别,文章的数量排名第10,作者数量排名第4;“历史”类文章数排名第8,作者数排名第5,“国际”类数文章未进入前十,作者数排名第8 ; 以上类别的共同特点是:自媒体作者数量比较多,文章

  对于作者数量较少而文章作者数量较多的“国际”、“体育”和“家庭”类别,垂直竞争相对平缓。

  (3)作者综合评分

  为了体现自媒体作者的整体素质,需要对作者的整体得分进行建模。根据现有的数据维度,评分模型选取的基本指标是文章(acount)的数量和文章评论(acomment)的数量。

  对 文章 数量执行 min-max 归一化以生成 文章 数量分数 (acount_norm)。

  文章 评论量分数的计算稍微复杂一些。首先,需要计算每个 文章 的平均评论数 (acomment_mean)。文章获得了大量评论。” 这个随机效果需要根据文章个数的基数进行调整。通过对数方法(acomment_mean_w)得到权重,然后通过加权求和进行调整。平均评论量(adjusted_acomment_mean),然后通过min-max归一化得到评论量得分(acomment_norm),最后取文章数量得分的权重为0.6,得评论量得分权重为0.4,加权求和得到每个作者的综合得分。

  

  经排序,作者综合素质前十榜单如下:

  

  将这份榜单与作者的产出榜单进行对比可以发现,虽然文章《江西城市直播》和《行业报告研究院》的数量不多,但凭借出色的平均成绩成功跻身综合评议评论数。评分榜TOP10。

  结论:自媒体要想提高综合评分,不仅要提高文章的输出,还要提高文章的质量,引爆用户评论。

  3.4 条评论分析

  问题:评论数量的分布是什么?文章 的哪些类别每篇文章收到的评论数量最多?文章 在哪些类别中得到高度评价?

  自媒体文章的评论数在一定程度上可以作为评价文章内容质量的指标,也可以作为评价内容选择质量的指标。好的内容或好的话题能够激发大众的热议,从而提升自媒体品牌的价值,甚至扩大影响力,吸引更多粉丝的关注。

  (1)评论分布

  文章2@>

  数据严重向右偏斜,最少评论0条,最多57645条,标准差71文章3@>54,波动相当剧烈;中位数是 40,这意味着一半的 文章 最多收到 40 条评论。

  让我们仔细看看分布图。整体有两个峰,分布在两端。大部分评论集中在0~200的范围内,其中0评论的文章共有2644条,占文章4@>88%;很少有 文章 引起了 40,000 以上的耸人听闻的评论;在 2000 到 40000 范围内,分布较少。结合以下图片评论榜TOP20:

  文章5@>

  可以发*敏*感*词*融”,但实际上文章的内容仍然是泛社会事件;

  另一种比较轰动的文章是与大家息息相关的“健康”类。公众对健康知识的正确认识和更广泛的认识,鼓励人们更愿意发表意见;

  此外,文章以“军事”为主题,也能引来不少评论。首先,“军人”与普通人的距离比较远,大部分读者都是通过媒体了解相对“神秘”的军队。故事,此外,随着我​​国的全面崛起,“军”力量的强大提供了极大的保障,人们对我国的军事实力充满信心,对故事和故事感慨万千。 “士兵”的精神;

  其他品类(包括不在前20名的)需要文章内容有很好的角度和真正深入的分析,或者文章有趣和独家内容的优势等。与用户产生共鸣并引爆评论。

  通过统计每个类别文章的平均评论数,我们可以发现,除了上述内容明显的文章类别外,还有其他很容易引起用户讨论的小众内容,见下图图片:

  文章6@>

  平均评论数由log函数修正,避免随机效应

  “佛教”是一匹隐藏的黑马。它脱颖而出并排名第一。也许是因为佛教本身提出的一些具有独特观点的人生哲学比较有用;“社交”热点一直是人们关注的焦点,针对热点事件发表意见也成为了大习惯;一篇振奋人心、鼓舞人心或措辞清新雅致的“美丽文章”通常会得到很多评论。

  (2)单条评论

  单篇文章评论多的文章集中在哪些类别?这部分主要是根据所有文章的单条评论数,取前1000条,看他们的类别分布,判断文章的哪些类别更有可能是爆文。

  文章8@>

  帕累托图

  很明显,在单条文章的前1000条评论中,“美国随笔”类名列榜首,占总数的五分之一以上,说明大众对“吃鸡”等话题非常感兴趣汤”、“情感”和“婚姻”。感受,愿意发表评论表达感受或谈论类似的经历;《娱乐》和《国际》分列二、三位。

  我们看到一共有12个类别,从排名第一的“美国”到第12位的“军事”,占类别总数的27%,但累计评论数却达到了80%,这充分印证了28 规则,即大部分用户评论集中在少数文章。此时,结合作者分布,发现评论数最多的类别与作者数最多的类别重叠。自媒体,还可以创作优质内容或获取独家资源引爆评论,增加关注度。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线