自媒体文章采集器(Excel对于处理十万行记录以下的数据集时是什么?)
优采云 发布时间: 2022-03-09 11:12自媒体文章采集器(Excel对于处理十万行记录以下的数据集时是什么?)
2021-06-11
前言
精通Excel之后,发现Excel对于处理10万行以下的数据集是个不错的选择,但是对于大数据就有点力不从心了。我还成功地尝试使用 SQL 和 R 来处理和显示数据。大部分分析过程遵循以下步骤,数据清理占用了大约 60% 的时间。
该分析还遵循以下步骤:
让我们开始吧
1. 提问
自媒体在这个时代,能抓住人眼球的人,就会抓住流量。众多的开放平台和分享渠道,让更多人有了输出内容的欲望,也让一夜爆红成为可能。不过也许你整天在电脑前拼命打码一天的干货,却不值得随手拍一张大V。与其抱怨你不是那个锦鲤,不如来看看是什么决定的你的文章是否受欢迎~
本文将使用Excel数据分析解决以下问题:
1) 我什么时候可以发布文章 以获得更多转发?
2) 哪些类型的 文章 最受欢迎?
3) 爆炸模型文章 它们在语言使用方面有什么共同点?
4) 新媒体的使用如何影响文章 的受欢迎程度?
如果您对以上问题感兴趣,请阅读以下内容
2.理解数据
本次分析使用的数据是基于Mashable News网站的在线新闻流行度数据集,来自于加州大学欧文分校(UCI)官网数据集(地址:+News+Popularity
数据集由数据集的作者使用 Python 捕获和计算。采集时间为2013年1月至2015年1月709天,记录39644条。下表是数据集的字段描述(很多):
3.数据清洗
◥3.1列名重命名
在原创数据中,列名都是以英文缩写的形式呈现,有点乱,也比较累。
3.2 选择子集
原创数据有 61 个字段,其中许多主要用于构建预测模型。本文的分析方法是趋势分析和描述性统计,所以暂时不需要的字段被隐藏,与以下数据相关的字段被保留(还有不少):
3.3 删除重复值
在本研究的数据中,每一个文章的URL都是文章对应的唯一标识,所以选择“URL”字段删除重复值(Selected Column → Data → Delete Duplicate值))。结果表明数据没有重复值。
◥3.4 栏
1)观察URL栏,发现“URL”字段实际上收录三部分信息:域名、日期和文章标题缩写,需要分栏。
2)观察数据显示,每个文本的域名和日期的字符串长度相同,所以在排序的时候可以选择“定宽排序”来分隔不同的信息。
<p>3) 接下来将“Date”列的数据格式修改为“yyyy.mm.dd”以日期格式显示,并使用Mid函数[eg: mid(C2,2,len(C< @2)-