自媒体文章采集器(Excel对于处理十万行记录以下的数据集时是什么？)

优采云发布时间: 2022-03-09 11:12

　　2021-06-11

　　前言

　　精通Excel之后，发现Excel对于处理10万行以下的数据集是个不错的选择，但是对于大数据就有点力不从心了。我还成功地尝试使用 SQL 和 R 来处理和显示数据。大部分分析过程遵循以下步骤，数据清理占用了大约 60% 的时间。

　　该分析还遵循以下步骤：

　　让我们开始吧

　　1. 提问

　　自媒体在这个时代，能抓住人眼球的人，就会抓住流量。众多的开放平台和分享渠道，让更多人有了输出内容的欲望，也让一夜爆红成为可能。不过也许你整天在电脑前拼命打码一天的干货，却不值得随手拍一张大V。与其抱怨你不是那个锦鲤，不如来看看是什么决定的你的文章是否受欢迎~

　　本文将使用Excel数据分析解决以下问题：

　　1）我什么时候可以发布文章以获得更多转发？

　　2）哪些类型的文章最受欢迎？

　　3）爆炸模型文章它们在语言使用方面有什么共同点？

　　4）新媒体的使用如何影响文章的受欢迎程度？

　　如果您对以上问题感兴趣，请阅读以下内容

　　2.理解数据

　　本次分析使用的数据是基于Mashable News网站的在线新闻流行度数据集，来自于加州大学欧文分校（UCI）官网数据集（地址：+News+Popularity

　　数据集由数据集的作者使用 Python 捕获和计算。采集时间为2013年1月至2015年1月709天，记录39644条。下表是数据集的字段描述（很多）：

　　3.数据清洗

　　◥3.1列名重命名

　　在原创数据中，列名都是以英文缩写的形式呈现，有点乱，也比较累。

　　3.2 选择子集

　　原创数据有 61 个字段，其中许多主要用于构建预测模型。本文的分析方法是趋势分析和描述性统计，所以暂时不需要的字段被隐藏，与以下数据相关的字段被保留（还有不少）：

　　3.3 删除重复值

　　在本研究的数据中，每一个文章的URL都是文章对应的唯一标识，所以选择“URL”字段删除重复值（Selected Column → Data → Delete Duplicate值））。结果表明数据没有重复值。

　　◥3.4 栏

　　1）观察URL栏，发现“URL”字段实际上收录三部分信息：域名、日期和文章标题缩写，需要分栏。

　　2）观察数据显示，每个文本的域名和日期的字符串长度相同，所以在排序的时候可以选择“定宽排序”来分隔不同的信息。

<p>3）接下来将“Date”列的数据格式修改为“yyyy.mm.dd”以日期格式显示，并使用Mid函数[eg: mid(C2,2,len(C< @2)-

0

2022-03-09

自媒体文章采集器

0 个评论

要回复文章请先登录或注册