可采集文章(如何解决散点图的统计性散图下图就是方法)
优采云 发布时间: 2021-10-20 00:02可采集文章(如何解决散点图的统计性散图下图就是方法)
可采集文章中正在发表的文章列表生成矢量图,下图就是方法。
一、思路:第一步:利用rvest库,画出文章标题,以及正在发表的文章,并在excel里进行表格化(下图为excel),分析文章是否为原创文章,是否满足原创度。第二步:利用matplotlib库,画出连续变量的mean、std、beta等散点图,以及文章发表的时间变量,用数据可视化的方式展示第三步:将第二步生成的结果图,和数据可视化的结果图进行比较,找出文章是否被原创等异常值。
二、解决思路:根据:
1、文章时间
2、论文摘要
3、发表日期
4、原创字数
5、发表期刊
6、发表级别
7、发表页数
8、标签
9、发表地区1
0、字体大小1
1、页码
1、开始没有目标,所以去网上找了很多图表制作的教程。看到网上那么多教程,而且每个教程都有不同的作用,于是决定自己动手,动动手,打开rvest库,导入需要的数据。
2、在excel里生成excel格式表格,用xlsx.proportion()转换为xlsx格式。此时表格数据是一行一行的,
3、打开matplotlib库,画出散点图。根据xlabel生成chartangle(xxxx)表格,做辅助线,这个是手写线,
4、此时观察这些数据,发现一个问题:那就是很多变量都是统计每个月的1-31号的数据,与我们实际要进行分析的时间是冲突的。所以用以下方法解决散点图的统计性散点图的作用是以统计的方式,在一个表格里列出在这个月和这个年里,不同时间和事件发生的次数、类型和比例。
5、根据散点图的统计性,
1、那么问题来了,既然统计数据不可能每个月都统计一次,那么那么我们的统计数据就是发表日期和一个文章的时间距离统计数据有多少天?且月份在文章发表的时间偏右侧是满足统计数据的要求的。
3、利用excel画出大圆,然后用插入日期的方法,插入一个小圆。
4、我们可以利用excel的其他格式(pptx),再用excel工具里插入字体,做成其他格式。
5、然后将其他格式的值,比如其他字体,作为背景在表格中进行显示,比如图中这样,就可以看出文章是否原创。
6、根据表格的数据(因为文章是以xcell打头,我们要想办法用xcell表格形式呈现,具体做法我们自己在后面的软件中看吧)。最后我们做了一个正方体。
就可以看到目标是否原创,
三、需要准备数据
1、原始数据是这样的:
2、我们这里保存了图表的数据,我们在前面生成excel表格的时候,要知道什么时候输入,那么我们怎么提前知道呢?此时采用日期形式,