关键词自动采集( 美国雷德赛尔大学信息科学的科学文献分析工具(上))

优采云 发布时间: 2022-01-04 17:02

  关键词自动采集(

美国雷德赛尔大学信息科学的科学文献分析工具(上))

  

  --Update 20190716--表格数据导出:

  

  出口

  

  网络汇总表

  

  网络摘要csv

  --更新20181123--5.3.R4及以后版本可从SourceForge及相关信息资源下载:未来SourceForge将作为CiteSpace的主要发布和交流平台,陈超美博士的科学网和使用交流的人也会转移到这个网站,大家可以到这个网站下载最新的资源使用。--原文--在学习citespace的过程中,感觉这个软件各有优缺点。在阅读文献时,我发现该软件的滥用更为严重。每个函数的用法是非常不同的。本文结合自己在使用citespace的过程中的使用经验,对citespace的使用进行梳理和总结。

  1.基本情况介绍

  Citespace是美国雷塞尔大学信息科学与技术学院陈超美博士与大连理工大学WISE实验室联合开发的科学文献分析工具。主要是对特定领域的文献进行测度,探索学科领域演进的关键路径和知识转折点。

  软件可在官网下载

  下载地址为:~cchen/citespace/download/。

  软件运行需要java环境

  验证java版本地址为:

  安装适配电脑的java地址为:

  2.CiteSpace 理论知识

  这部分的内容主要是讲解CiteSpace开发的基本设计理念。只追求应用的用户可以跳过本节。如果你想了解软件背后的设计理念,可以继续阅读。

  CiteSpace的设计理念分为哲学视角和概念模型两个方面。

  2.1 哲学视角

  波普尔的三个世界理论。

  整个世界分为物理世界(世界1)、精神世界(世界2)、客观知识世界(世界3)))。世界1是被物质接触的具体世界。外部;世界2是人脑的精神世界中,有隐性知识;世界3是人类创造的知识体系。

  传统的看待世界的方式是人类通过世界2感知世界1,形成世界3。CiteSpace通过知识图谱将世界3中的知识内容可视化来理解世界1,即通过世界2来理解世界1。世界 3。

  托马斯库恩科学革命的结构

  库恩认为,科学的进步是一个以科学革命为基础的永无止境的过程。在这个过程中,会有一场又一场的科学革命,人们的认识也会通过科学革命采取新的观点。新视角的重要性在于我们能否为我们观察到的物体提供更有说服力的解释。库恩的科学革命是新旧科学范式的交替和兴衰。科学认识会出现危机,危机带来的新旧范式的转换,将在学术文献中留下印记。库恩的理论为我们提供了一个指导框架。如果科学过程真的像库恩的洞见那样,那么我们应该能够找到范式的足迹”

  科学的价格前沿理论

  “论文会因为引用关系而形成网络,人们可以使用图论和矩阵方法来研究……论文必须聚集在一起,形成一个几乎绘制成地图的'土地'和'国家' .” 在Price的论文基础上,形成了CiteSpace的概念模型。

  Bot的结构孔理论

  并非社交网络中的每个人都与其他所有人直接接触。如果是这样,就会出现结构漏洞,即结构不完备。在这种情况下,网络中的信息流受到其结构的限制。每个人在互联网上可以访问的信息内容不再相同,传递和接受的时间也会有所不同。伯特发现结构洞周围的人往往具有更大的优势。CiteSpace就是基于这个理论来识别关键节点和关键位置。

  信息觅食理论

  解释和模拟人们在网络环境中的信息搜索行为,计算获取信息的效率,以最小的搜索成本获得最大的收益。该理论用于探索CiteSpace的网络结构,开发了探索知识演化路径的方法和技术。

  2.2 概念模型

  “如果将某一领域的研究前沿定义为一个研究领域的发展状况,那么该研究前沿的引文就形成了相应的知识库。” CiteSpace 的研究前沿和知识库定义如下:

  研究前沿

  某一科学领域的一组引用文献。它从两个方面体现了研究前沿的特点:1.引用文献群本身的内容;2. 引用文献组引用的参考文献。可以体现为:1.关键词 被引文献群使用;2. 被引文献组引用的参考文献。

  基础知识

  某一学科领域所有以往文献的集合,相对于研究前沿文献集合。具体表现为文档的共引聚类。

  在此基础上,理论和技术的发展为 CiteSpace 提供了基础:

  理论基础:引文分析

  技术基础:信息可视化

  3.主界面显示

  

  主界面

  本次文章使用的是5.1.R8 SE版本,截至2018年3月26日的最新版本为5.2.R2,版本选择主要根据对于电脑版本和需要的功能,本文只涉及到citespace最基本的功能,所以选择了本地电脑上运行最稳定的版本。

  整个界面在本文中可以分为4个主要部分,如下所示。

  菜单栏

  工程领域

  运行进度区

  功能选择区

  

  分区3.1个菜单栏

  

  菜单栏3.2 项目区

  该区域主要用于创建新项目。点击新建,进入新建项目的设置界面,如下:

  

  项目区.png3.3 运行进度区

  展示运行过程中citespace的数据操作,具体示例演示如下:

  

  运行进度3.4 功能选择区

  时间切片数据分段时代

  Term source 选择聚类词的来源

  节点类型选择节点类型!!这部分的选择直接决定了生成什么样的地图,下面会详细说明。

  链接连接强度计算

  强度 分析对象的数据之间的连接强度

  范围

  选择标准

  剪枝方法选择(优化结果)

  可视化 可视化模式

  4.可以分析哪些数据?

  Citespace 目前支持来自多种数据库的书目标题和书目数据,总结如下:

  

  数据库和格式要求

  在目前的研究中,英文文献主要使用web of science 数据库,中文数据主要使用CNKI 和CSSCI 数据库。研究人员可以根据自己的需要选择数据源,注意自己需要的格式和文件名。由于本文主要研究citespace的使用,数据库的数据获取就不详细讲解了。有需要的读者可自行查阅或关注更新。

  需要注意的是:

  所有手动下载的数据文件的文件名必须以download开头,例如download_2018.txt。如果需要对被引文献进行分析,必须选择有参考文献的数据库,否则将无法实现共引部分的功能。5.数据处理窗口显示

  

  数据处理窗口

  数据处理窗口显示了上一节提到的 Citespace 支持的数据库类型。在数据处理窗口中,软件可以完成以下功能:

  数据格式转换(最常用) 数据获取:获取ADS、arXiv数据,属于citespace的内置功能。数据处理(比较常用):对于WoS数据,可以进行文件合并、文档去重、定界符格式转换。具体内容如下图所示:

  

  数据处理和排​​序数据(较少使用):使用该功能需要使用基本的SQL语句。具体界面如下。

  

  整理资料5. 基本操作流程

  使用citespace的基本操作流程如框图所示,涉及数据采集、数据处理、导入软件、函数选择、图形可视化生成和标签提取、图形解释几个重要步骤。

  

  基本操作流程

  下面展示了使用CiteSpace结合文献共引图分析的方法:

  5.1 获取数据和数据转换(非WoS数据)的前期工作以CNKI为例(1)创建两个文件夹“input”和“output”,将下载的文件放入“ input”文件夹(2)Data →Import→CNKI(3)输入目录选择“输入”文件夹,输出目录选择“输出”文件夹(4)点击格式转换,完成转换并新建工程;参数选择(在功能面板中选择引用的引用)5.2 Generate map

  单击主面板上的“开始”以开始该过程。Citespace 读取恐怖主义中的数据文件,并在左侧窗口中报告进度。

  进度完成后会弹出提示框,有三个选项可以选择Visualize、Save As GraphML、Cancel。

  单击可视化以查看生成的地图。一开始,它是一个黑色背景上的运动。运动结束后,背景变成白色。

  

  生成图集 1

  

  生成地图25.3 默认地图的信息含义

  节点代表分析对象。它出现的频率越高(或引用的频率),节点就越大。节点内圈的颜色和细细表示不同时间段的发生频率。节点之间的连接表示共现(或共引)关系,粗细表示共现(或共引)强度。颜色对应于节点第一次共同出现(或共同引用)的时间。从冷蓝色到暖红色的颜色变化代表了从早期到最近的时间变化。滑动右上角的工具栏可放大和缩小地图

  5.4 点击生成聚类图

  

  执行自动聚类过程。

  基于谱聚类(一种基于图论的算法)对于共引网络具有天然优势,共引网络是基于连接关系而不是节点属性进行聚类。任何形状的样本空间都可以聚类并收敛到全局最优解。

  网络签名位于显示屏的左上角。模块化 Q 和平均配置文件分数是关于网络整体结构的两个重要指标。

  

  Clustering Atlas 5.5 查看聚类信息

  集群→集群汇总

  聚类信息包括:

  簇的大小; 轮廓平均值(年);顶级条款(tf * idf);最高项(对数似然比,p 级);条款(相互信息)

  

  聚类信息查看1

  

  集群信息查看25.6 生成集群标签

  为了表征和识别集群的性质。从特定集群的标题、关键词 和摘要中提取名词短语。

  点击

  

  image.png 是任意的,从文档的标题、关键词、摘要中提取名词短语作为簇标签。

  

  文档共被引聚类图

  至此,最基本的文档共引图就生成了。

  6. 我应该选择什么图片?

  通过观察功能选择模块的Node Type选项面板,可以总结出该节点提供的功能如下:

  

  节点及对应的图类型6.1 不同图针对的研究对象:

  不同的图集有不同的问题和不同的内涵:

  分析文献共引图集和作者共引图集的被引文献(参考文献)。对引用文献进行作者共现图、机构共现图、国家共现图、特征词共现、关键词共现、学科类别共现分析。6.2 地图的具体含义:

  对于引用文件:

  作者共现图

  基于作者在引用文献中的合作绘制,同一文章中出现的两位作者文章被视为合作,主要基于作者的共现频率矩阵。

  机构共现图

  基于被引文献中机构的合作绘制,将同一文章文章中两个作者机构的出现视为合作,主要基于机构的共现频率矩阵。

  国家共现地图集

  根据引用文献中国家间合作的情况进行绘制。两个作者国家出现在同一篇文章文章中被认为是合作,主要是基于国家的共现频率矩阵。

  特征词共现图

  特征词从标题、摘要、作者关键词、附加关键词等来源中提取,并根据被引文献中特征词的共现情况绘制。出现在同一文档中的两个特征词视为一次合作,主要基于特征词的共现频率矩阵。

  关键词共现图

  基于关键词在被引用文献中的共现,将出现在同一文献中的两个关键词视为合作,主要基于关键词共现频率矩阵。

  相似图

  计算重叠参考源的相似度(新功能,减少研究论文)

  WOS主题共现图

  根据WoS数据中提供的文献学科,将同时属于两个WoS学科的文章文章视为学科共现,主要基于学科共现频率矩阵。

  对于引用文件:

  文献共引图

  它是在引用文献的同时,根据对被引文献的引文得出的。两篇文献同时被一篇文献引用作为一次共引,主要基于文献共引频率矩阵。

  作者共引图

  它是根据作者同时对被引文献的引用而绘制的。两位作者的两篇文献被一篇文献同时引用为一篇共引,主要依据作者的共引频率矩阵。

  期刊共被引图

  它是根据被引文献发表的期刊中对被引文献的同时引用得出的。两个期刊的两篇文献,当一篇文献被同时引用时,作为一个共引,主要依据期刊的共引频率矩阵。

  6.3 使用哪个图表可以显示什么样的结果?

  本节只介绍研究中常用的几种图,不介绍WOS学科和相似图的共现。

  文献共引图

  

  共同引用的文件

  期刊共被引图

  

  期刊共引

  作者共引图

  

  作者共引图

  作者合作图

  

  作者合作

  机构合作图

  

  机构合作.png

  国家合作图

  

  图片5.png

  关键词共现图

  

  关键词 Co-present.png7. 我的图片需要修剪吗?

  citespace 主面板上的剪枝选项是对生成的地图的剪枝算法。那么剪枝算法有哪些呢?我的图片应该修剪吗?

  Citespace 提供了两种剪枝算法:

  探路者

  最小生成树

  两种算法的详细区别请参考:

  Chen, C. 和 Morris, S.(2003) 可视化演化网络:最小生成树与探路者网络。IEEE 信息可视化研讨会论文集,(西雅图,华盛顿,2003),IEEE 计算机协会出版社,67-74. ~cchen/papers/2003/2003InfoVis.pdf

  Citespace 提供了两种剪枝策略:

  修剪切片网络 修剪合并的网络

  剪枝其实就是对形成的网络进行剪枝,去掉不重要的节点和连接,使网络中重要的节点和连接更加清晰。解释地图很容易。一般情况下,我们首先点击go生成地图。如果生成的地图满足要求,则不需要剪枝。当生成的图节点和连接过多且图的可读性极差时,此时选择图剪枝。

  在剪枝算法中,一般没有推荐算法。MST的优点是计算简单快捷,可以快速得出结果,但不是唯一解。Pathfinder 的优点是唯一的解决方案,但有时在修剪过程中会丢失相对重要的节点。但是,只能选择两种算法中的一种。观察现有研究可以发现,网络数据量大的研究会选择Pathfinder算法,而10000以下的数量级一般选择MST算法。

  在剪枝策略上,Pruning slice network 在每个时间段对网络进行剪枝,而 Pruning 合并后的网络则对整个网络进行剪枝。可以同时选择两种策略,实现每个时间段剪枝后的全网剪枝。剪枝策略的选择也是根据网络的实际情况来选择的。如果网络复杂度不高,则只能选择Pruning the merge networks来对整个网络进行剪枝。如果地图仍然对此负责,则选择 Pruning slice network。每个时间段都会修剪网络。

  8. 提取cluster标签用的是什么源码和算法?

  citespace 在聚类标签的提取中提供了三个标签源:title、关键词、abstract;提供三种标签提取算法LSI/LLR/MI

  8.1 哪种算法更好?

  接下来,利用web of science 导出的数据生成文献共引图,以标题为来源,利用三种算法生成聚类标签。

  

  *敏*感*词*集成电路

  

  有限责任公司

  

  米

  整体上,作者推荐使用LLR算法进行聚类主题抽取,得到的聚类标签会更符合实际情况,重复次数更少。但是需要注意的是,无论使用哪种算法进行聚类主题提取,都需要重新确认生成的标签和实际文档,有时还需要合并聚类。

  8.2 哪个源更好?

  下面使用web of science 导出的数据生成文档共引图,以LLR为算法分别使用三个源生成聚类标签。

  

  标题

  

  关键词

  

  概括

  从实例中可以看出,三个聚类主题源各有特点,但差距并不是很大。来源可根据研究中的实际需要确定。仅以本例为例,摘要提取的聚类标签合并后更符合研究需求——反映网络对竞争情报的影响。

  9. 让你的图片更美-调整地图

  软件自动生成的图片总是很难看,相信用过citespace的人都会有体会。这样的地图虽然还是有价值的,但是缺乏美感,在地图的解读上会有一定的障碍。因此,本节主要介绍一些地图调整的方法。

  地图生成界面中的显示选项基本收录了地图调整的所有内容。

  

  图集调整

  下面依次说明常用选项的用法:

  调整背景颜色:背景颜色/黑色背景/白色背景

  背景颜色可以根据您的需要进行调整。软件还提供了两种快速调整方式,直接调整为白底黑底。

  节点调整

  节点调整只能在默认图中进行,比如引文年轮的节点。节点的形状和颜色具有解释意义,因此节点无法调整

  节点渲染类型节点形状节点形状节点大小节点填充颜色节点填充颜色节点轮廓颜色节点轮廓颜色

  标签调整

  label color select 文章 label color/term label color/cluster label color label font size select label 统一大小显示/按比例显示 label position select 使节点标签不被遮挡/集群标签不被遮挡

  连接

  line shape 选择连接是直线还是曲线 虚线 是否显示虚线;虚线的颜色 实线 是否显示实线;实线的颜色

  聚类

  显示/隐藏集群标签 显示/隐藏集群标签#显示/隐藏集群 ID 显示/隐藏集群 ID 凸包:shou/hide 显示/隐藏集群区域凸包:仅填充/边框 显示/隐藏集群区域阴影填充 凸包:切换填充颜*敏*感*词*案填充颜色切换凸包:选择填充颜色选择填充颜色凸包:颜色按引用年份聚类区域给出颜色按年份圈显示/隐藏显示/隐藏聚类圈问题(持续更新)

  在关键词视觉视图生成过程中,左边会出现对应的按词频排序的关键词,有的关键词会出现两次。这怎么解释?有些关键词只是单复数的区别,比如libraries和libraries。

  在图片中右击选择要保留为 Alias Primary 的单词,然后选择另一个单词作为 Alias Secondary。再去,两者就会合二为一。

  在图生成界面,节点的中心性显示为0.

  在菜单栏中选择 Metrics-compute centrality 计算每个节点的中心性。

  由于本文作者水平有限,可能存在一些错误和疏漏。欢迎大家指点,交流学习。

  参考

  陈越。引文空间分析原理及应用[M].科学出版社,2014.

  李杰,陈朝梅。Citespace:科技文本挖掘与可视化[M].首都经济贸易大学出版社,2016.

  陈超美教授的又一力作,你想要的CiteSpace应用的完美范文来了()

  Citespace学习总结与心得()

  陈超美。科学制图:文献系统回顾[J].数据与信息科学学报, 2017, 2(2): 1-40.

  陈超美、胡志刚、刘胜波和曾洪。再生医学的新趋势:CiteSpace 中的科学计量分析 [J]. 生物治疗专家意见, 2012, 12(5): 593-608.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线