自媒体文章采集器(Excel对于处理十万行记录以下的数据集时是什么?)

优采云 发布时间: 2022-03-09 11:12

  自媒体文章采集器(Excel对于处理十万行记录以下的数据集时是什么?)

  2021-06-11

  前言

  精通Excel之后,发现Excel对于处理10万行以下的数据集是个不错的选择,但是对于大数据就有点力不从心了。我还成功地尝试使用 SQL 和 R 来处理和显示数据。大部分分析过程遵循以下步骤,数据清理占用了大约 60% 的时间。

  该分析还遵循以下步骤:

  

  让我们开始吧

  1. 提问

  自媒体在这个时代,能抓住人眼球的人,就会抓住流量。众多的开放平台和分享渠道,让更多人有了输出内容的欲望,也让一夜爆红成为可能。不过也许你整天在电脑前拼命打码一天的干货,却不值得随手拍一张大V。与其抱怨你不是那个锦鲤,不如来看看是什么决定的你的文章是否受欢迎~

  本文将使用Excel数据分析解决以下问题:

  1) 我什么时候可以发布文章 以获得更多转发?

  2) 哪些类型的 文章 最受欢迎?

  3) 爆炸模型文章 它们在语言使用方面有什么共同点?

  4) 新媒体的使用如何影响文章 的受欢迎程度?

  如果您对以上问题感兴趣,请阅读以下内容

  2.理解数据

  本次分析使用的数据是基于Mashable News网站的在线新闻流行度数据集,来自于加州大学欧文分校(UCI)官网数据集(地址:+News+Popularity

  数据集由数据集的作者使用 Python 捕获和计算。采集时间为2013年1月至2015年1月709天,记录39644条。下表是数据集的字段描述(很多):

  

  3.数据清洗

  ◥3.1列名重命名

  在原创数据中,列名都是以英文缩写的形式呈现,有点乱,也比较累。

  

  

  3.2 选择子集

  原创数据有 61 个字段,其中许多主要用于构建预测模型。本文的分析方法是趋势分析和描述性统计,所以暂时不需要的字段被隐藏,与以下数据相关的字段被保留(还有不少):

  

  3.3 删除重复值

  在本研究的数据中,每一个文章的URL都是文章对应的唯一标识,所以选择“URL”字段删除重复值(Selected Column → Data → Delete Duplicate值))。结果表明数据没有重复值。

  ◥3.4 栏

  1)观察URL栏,发现“URL”字段实际上收录三部分信息:域名、日期和文章标题缩写,需要分栏。

  

  2)观察数据显示,每个文本的域名和日期的字符串长度相同,所以在排序的时候可以选择“定宽排序”来分隔不同的信息。

<p>3) 接下来将“Date”列的数据格式修改为“yyyy.mm.dd”以日期格式显示,并使用Mid函数[eg: mid(C2,2,len(C&lt; @2)-

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线