工具采集文章(从豆瓣爬取数据进行统计分析,你了解多少?)
优采云 发布时间: 2022-02-03 06:02工具采集文章(从豆瓣爬取数据进行统计分析,你了解多少?)
工具采集文章主要是分为两个步骤:
1、从网站爬取文章;
2、再将文章信息统计分析。其中文章采集分为两步:第一步从网站获取文章数据,爬取的网站多为豆瓣和知乎;第二步要统计一下各个平台的文章比例,合理安排发布文章的顺序。本文将从豆瓣爬取数据进行统计分析,以下一段通过一个表格来说明采集豆瓣后统计分析文章比例。
一、在线数据采集
1、采集方法①采集“江米条数据”平台数据;②上传文章链接采集;③采集百度文库采集不到数据,试了其他方法,发现豆瓣采集效果最好。
2、采集文章条数豆瓣采集30页,共计7000多条,没有特殊情况,一个帖子会采集多条文章,因此我们对应关联多次采集。发现豆瓣并非全国统一采集,而是采集全国二三线城市的广告,本着实事求是的态度,我们在采集过程中统计这部分数据。由于二三线城市的广告多,豆瓣广告文章比例比一线城市要高出几个百分点。发现有些广告只是简单加一个标题标签,并非具体的消费者产品信息。
3、平均点击率在整个采集过程中,统计了单位时间里的点击率。由于不确定因素比较多,我们会将数据由少到多划分成不同的区间,分区间统计平均点击率。
4、平均pv在全部豆瓣采集数据中,平均每个文章点击率约为6-8次,pv500000。在豆瓣平均点击率都在5000次以上,即便如此pv500000的文章也比豆瓣点击率低很多。
5、回应时间普遍的广告文章点击率在1-3秒间,回应时间在0-5秒,平均在10秒内,普遍都是0到15秒,普遍都在5-10秒间,而且文章内容大多和虚假广告及低俗广告无关。
6、点击率的中位数点击率的中位数就是点击率中位数,也就是第二名到第十名中位数。在上述数据中,第一名是某机械网站的一款新闻信息推送;第十名是一些不具备点击率中位数的广告文章。
二、文章数据统计分析
1、统计概况
1)地域分布主要集中在一线城市,上海、北京、广州、深圳、成都,
2)广告数量、受众分布统计受众统计集中在三四线城市,点击率比例大概在15%左右,百分比仅15%。
3)文章内容与平均点击率保持一致广告内容和点击率基本保持一致
2、豆瓣广告分布与信息受众图
3、广告类型主要为美妆日用、家居、3c、时尚、户外,其中购物类为主力,也有一些店铺,来源,主要通过,聚划算的导购相关。(注:是平台,天猫是商家主要通过导流,以及非营利性网站,
4、豆瓣用户数据统计统计方法可以分为五种:①统计豆瓣月活跃用户或用户组;②统计每个用户日均发文量;③统计每个用户发文的