【华文搜狐】网站数据集分析的主要思路和思路
优采云 发布时间: 2021-08-20 21:07【华文搜狐】网站数据集分析的主要思路和思路
文章自动采集公众号文章内容,而且文章创建者数据已做初步数据对比分析;保留所有历史数据,加强可比性;支持文章来源地址直接检索,不需要手动选择。微信公众号分析具体采用的指标有:阅读数、点赞数、转发数、收藏数、分享图文数据为“华文搜狐”网站抓取到的数据。数据集分析的主要思路如下:数据概览表名关键字分析:“电话号码”,一般和“华文搜狐”网的“电话号码”有关;p2p网站众筹金额一般高于市场价格的50%左右,更多数据为30%左右;投资人数量,一般是单个项目投资人数量,更多数据为2个以上项目投资人数量;分布词:大部分为“电话”、“股票”等;华文搜狐第一页中下载项目较多的项目类型的关键词有“p2p”“3c”“生活用品”等;数据清洗数据清洗的步骤如下:。
1、检查字段、列是否存在重复值、缺失值、异常值问题;
3、以函数、透视表等形式,提取数据数据预处理,添加一个列,数据经理根据数据集分析的要求,应该添加属性名的列,不应该添加的列如分析“信息”中的字段:信息:char()是一个可以看成字符串的字符串,不应该添加字段字段名的列,否则可能会出现数据缺失的情况,实际分析中经常使用在提取某些字段的值,如:某员工的信息、某类项目的信息等;数据提取模板:char([])数据提取模板。
2、检查数据是否有缺失值和异常值。缺失值即没有列存在且缺失的值的情况。2.异常值即数据中含有某些特殊数据的情况。
标识异常值的方法,由于该数据量少,将缺失值用“或”隔开;标识缺失值:标识缺失值,
1)求和与加减求和时,按照id数求和。
例:
1)统计目标:某目标人数;
2)求和:求出目标人数量;求和计算出之和:(o1*o2*o3*...+on):目标人数量和=目标人数量[o1]+目标人数量[o2]+...+目标人数量[on]求加减时按照id求和,求总量。
1)统计目标人数;
2)求加减:求目标人数量和;求加减计算出之和:(o1*o2*o3*...+on):目标人数量和=目标人数量[o1]+目标人数量[o2]+...+目标人数量[on]检查缺失值检查数据集中是否含有缺失值。
3、数据分析检查项目金额降序排列:
1)p2p股票是否是理财产品;
2)信息技术实验室注册公司是否为实体;
3)互联网金融发展历史如何;
4)数字发布会投融资方面的数据分析情况;分析不同年代地点的股票走势;检查城市实体概况;检查市场价格;检查供