开源专利分析工具(下) | The WIPO Manual on Open So
优采云 发布时间: 2022-08-10 15:25开源专利分析工具(下) | The WIPO Manual on Open So
将本文节选自WIPO Manual on Open Source Patent Analytics (2nd edition),主要介绍了可用于专利分析的开源工具。本文所介绍的工具可以分为八个种类:通用工具、数据清理工具、数据挖掘工具、数据可视化工具、网络数据可视化工具、信息图制作工具、地理数据可视化工具、文本挖掘工具。上期文章介绍了前面六种(相关链接:;),本期文章介绍最后两种:地理数据可视化工具、文本挖掘工具。PART 7地理数据可视化工具
对于地理数据可视化工具,除了无处不在的Google地图和众所周知的Google地球,我们认为还可以去探索一些其他的工具。
7.1 Open Street Map目前越来越受欢迎的一款应用。#map=5/51.500/-0.100
7.2 Leaflet一款非常受欢迎的、开源的、基于JavaScript库的交互地图。
可通过API访问。R用户可以使用leafletr包,其教程在R-bloggers上()。Python用户的相关教程可以参见以下链接:;。7.3 Tableau PublicTableau Public使用OpenStreet Map来创建强大的交互图表组合,这些图表可以链接到具有不同地理编码精度的地图。Tableau Public可能是用专利数据创建地图的最简单的入门工具。下面这张地图就是使用自定义地理编码创建的,其展示了科学出版物出版的国家以及这些科学出版物的名称。进入后方链接的地址可以看到交互版本()。
7.4 QGIS
QGIS()是一个在所有主流平台上都能够运行的软件包。
WIPO的专利分析专家利用QGIS描绘了全球海洋生物科学研究和专利文献的全球分布,并标记了深海热液喷口的位置()。下图是基于科学文献文本挖掘得出的全球海洋科学研究点的QGIS地图。
7.5 .
.()不是一个地图制作工具,而是一个包含了全球地理名称的数据库。在.中,你可以获得很多地方的地理位置数据。用户可以在R、以及Python、Ruby、PHP的客户端通过geonames包()访问geonames。7.6 OpenLayers
如果你想要制作自定义的一些地图形式,OpenLayers()可以帮到你。用户可以通过OpenLayers在OpenStreetMap制作的地图上添加更多的图层和其他数据源,这样就可以制作出用户自己想要的地图。OpenLayers也有其自己的API和教程。7.7 CartoDB
CartoDB()是一款开源网络应用程序和交互式地图制作工具,CartoDB具有免费和付费两种账户。对于开发者而言,CartoDB有很多工具的扩展文档和API。7.8 D3.js
D3.js()是一个用于编辑数据和文档的JavaScript库。D3.js也是网络上流行的几个可视化工具的底层库。7.9 Highcharts
对于用于非商业用途的图表,部分图表是免费的,部分图表需要付费。7.10 Datawrapper
Datawrapper()是一个非常完整的制作图表和地图的在线可视化工具。而且Datawrapper被很多大牌新闻媒体所采用,所以它做出来的图表让你有一种似曾相识的感觉。Datawrapper也分有免费和付费的不同功能。7.11 Plotly
Plotly()为R、Python、Matlab、Node.js和Excel的用户都提供免费或付费的服务,免费版本的链接为:。R的用户可以参考Carson Sievert的一本免费的电子书Interactive web-baseddata visualization with R, plotly, and shiny()。Plotly的优点是易于使用,并且能够使用很多语言访问,这些优点使得Plotly越来越受欢迎。
PART 8文本挖掘工具8.1 TidytextWIPO的专利分析专家使用来自Julia Silge和David Robinson的tidytext R包()来进行文本挖掘。tidytext可以将文本挖掘的任务变得简单,并且还有免费的电子书可以参考。此外,我们还推荐你使用来自Tyler Rinker的textclean R包()来清理数据。8.2 Weka
Weka()是一个基于Java的文本挖掘软件。8.3 NLTK
NLTK()是Python中最好的包了,它几乎能够实现所有主流需求。其配套的书籍NaturalLanguage Processing with Python也值得参考。
此外,Python文本挖掘包()比NLTK包更简单,但可能适合你的需求。8.4 Sci-kit learn
Sci-kit learn()是一个通用目的的机器学习库,其提供了关于处理文本和数据集的详细说明文档()。8.5 spaCy
spaCy是一个用于处理自然语言的免费机器学习包。spaCy最近越来越受欢迎,因为它专注于创建可以投入生产的机器学习模型,而不仅仅是学术探索。在推进自然语言处理并使得每个人都可以使用方面,spaCy作出了非常重要的贡献。我们推荐由spaCy的创始人和开发者之一的Ines Montani所写的免费教程(),来帮助学习如何使用spaCy。如果是使用R的用户,那么可以使用由伦敦经济学院(London School of Economics)的Kenneth Benoit和Akitaka Matsuo开发的spacyr包,这是一个非常好的选择,并且在使用时也有据可查。8.6 机器学习的注解工具(Annotation Tools forMachine Learning)在对文本或图像进行机器学习时,通常需要对一些文本或图像进行注释以训练模型。在这一方面,出现了越来越多的工具,包括需要付费的explosion.ai(其开发者为spaCy的开发者)。下面列出了一些可供尝试的免费工具:• Label Studio()• Inception()• Doccano()• Label Box()8.7 Google单词树(Google Word Trees)Word Trees可以用来对文本进行详细分析,例如对权利要求进行分析做成权利要求树。
Google Developers网站上的GoogleWord Trees提供了使用Javascript生成单词树的说明。8.8 R语言文本挖掘tm包R的文本挖掘tm包提供了很多访问文本挖掘工具的途径。使用者可以参考tm包的开发者所写的说明()。在R-bloggers()上也有很多非常实用的关于文本挖掘的教程。推荐参考由Graham Williams在2014年写的教程Hands-On Data Science with R Text Mining。关于近期的基于R的文本挖掘工具的概览,可以参见Fridolin Wild于2021年写的CRAN Task View: Natural Language Processing()。需要注意的是,许多文本挖掘包通常侧重于生成单词。这种方式,对于非学术目的的文本挖掘工作,并不十分有用。比如,对于专利分析来说,更注重于从文本中提取出短语,而非单词。因此,对专利分析人员而言,寻找那些能够提取短语并且允许对其进行深入挖掘的工具更有意义。8.9 Python和文本挖掘目前有很多基于Python的文本挖掘工具。相比于R,Pyhton在文本挖掘方面有更多的资源。但是,近来R和Python正越来越多地被一起使用,以发挥它们的不同优势。8.10 其他文本挖掘资源有关更多的文本挖掘工具的选择,请参阅这篇预测分析文章Top20 free text mining software tools()。
对于其他免费文本挖掘工具,可以参考一些语料库语言学网站(corpus linguistics websites)(语料库语言学,主要研究机器可读的自然语言文本的采集、存储、检索、统计、词性和句法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用),例如:Corpus software and related tools()。一些分析工具是专门为处理专利数据而开发的,例如SearchTechnology公司的VantagePoint()。vpinstitute(一款教育类型的app)的用户可以免费使用VantagePoint的补贴版本。
还有一些定性数据分析软件工具可以应用于专利分析,例如:
•MAXQDA()
•AtlasTI()
•QDAMiner()
但是,除了QDAMine Lite(仅限 Windows)之外,其他的工具提供了免费试用的机会,这些工具并不属于我们所关注的开源工具。
PART 9小结在这三篇文章系列中(;),我们介绍了可用于专利分析的一些主要的免费和开源工具。这些工具并不是专门用于专利分析的,但是它们能够用来分析专利数据。在实践中,了解这些工具的作用,以及了解你的分析需求,是非常重要的。在专利分析的实践中,将付费工具和免费工具结合起来使用也是非常重要的。例如,WIPO的专利分析报告《动物遗传资源专利分析》(WIPO Patent Landscape forAnimal Genetic Resources),()中,就使用了GNU Parallel和Map Reduce利用Ruby中的匹配模式,对1100万件专利文献进行*敏*感*词*文本挖掘,并结合使用PATSTAT进行数据统计,使用Thomson Innovation和VantagePoint进行数据验证,使用Tableau和Gephi做数据可视化。简而言之,使用免费的开源工具来完成一个专利分析项目是可能的,但是如果想要让专利分析的整个流程进行更顺畅,可能需要结合开源工具和商业工具一起使用。所以,了解这些工具并且清楚它们的强项和优势在哪里十分重要。PART 10选择分析工具需要考虑的问题清单当开始使用一项开源软件时,最好是要提前问问自己下面这些问题,来判断这些工具是否能够满足你的特定需求。
下面的这个清单并不是固定的,只是为了鼓励你在使用开源工具之前先思考并明确一下这个工具是否适用。1. 这个工具有意义吗?也就是说,你能不能立刻清楚这个工具的用途是什么?如果答案是否定的,这个工具对于你的特定需求来说可能过于专业,或者是这个工具的开发者可能没有清楚的表明这个工具想要实现的目的,那这就要慎重选择。2.你是否了解这个工具所涉及的编程语言?如果你不了解这个编程语言的话,会不会对你使用这个工具产生影响?为了使用这个工具而去学习该编程语言是否值得?有没有免费的或者你能负担的相关课程?3.源代码是开源的还是专有的?开源许可的条款和条件是什么?当使用开源和免费软件时,清楚地了解开源许可的精确范围。例如,你是否需要以与原始许可完全相同的条款向他人提供对源代码的任何修改?如果你处理了源代码,这就会存在知识产权风险。如果你没有在源代码层面上工作,这可能不就不涉及知识产权问题。了解开放源代码许可对我们的工作来说总是有意义的。4.谁将拥有我的数据?如果我们需要上传数据到一个基于网页的服务应用上,那么数据上传之后谁会拥有这些数据,其他什么人会在什么条件下能够获得这些数据?当这些数据是商业相关的,这个问题就显得尤为关键。
5.“免费”到底意味着什么?免费版本通常会导致高级服务(即转变为付费的服务)。这一转变是开源商业模型的关键特征。在一些情况下,免费的版本可能只能处理、存储或输出少量的数据。在另一些情况下,有些免费工具并不会对用户在使用上施加任何限制,但是使用这些免费工具要求用户具备相应的知识或技能。6.有其他企业(或者专利局)在使用这个工具吗?如果有的话,就说明这个工具较为可靠并且还能够找到相应的案例。7.这个工具是否有相关的使用说明文档或者教程?这是反映该工具是否成熟的指标。如果有很多教程和说明文档,说明在行业中有很多人在使用它。8.有多少人在使用这个工具?这些用户是否积极创建论坛和博客等,以支持用户广泛地交流其使用经验?9.这个工具是只有一个功能还是集成了很多不同的功能?换言之,这个工具能够满足所有的需求,还是仅仅是我们工具箱中的一个特殊的工具。在一些情况下,一个专注于一种功能的工具能够把这个功能做到极致,而那些同时集成了很*敏*感*词*的工具可能每一项功能都仅仅是一般般。在本文中所列出的所有工具中,R和Python(或者它们的结合使用)能够实现专利分析全流程,从数据采集到数据可视化。在实践中,大多数专利分析工具箱都包含通用工具和特定工具。
10.这个工具的极限在哪里?我们需要了解一个软件的极限在哪里,这样以后在尝试做一些关键任务时就会有所准备。例如,一些软件声称可以完成一些特定的任务,比如处理上千条或者上百万条数据,但实际上如果真的处理了这么大量的数据,结果就会很糟糕。通过尝试使用这个工具到其极限,可以确定这个工具极限在哪里以及如何充分利用它。11.这个工具是否符合我的需求?最近,大数据和使用Hadoop进行分布式计算处理大量数据是领域热点。Hadoop是开源的,任何人都可以使用它,但是Hadoop和大部分的专利分析需求都不相匹配,除非是需要分析全球所有的专利文献,大量的文献资料和科学数据。举例来说,前文中提到的WIPO的《动物遗传资源专利分析报告》(Animal Genetic ResourcesLandscape report)就使用GNU Parallel处理了1100万条专利记录。而决定使用GNU Parallel而非Hadoop来处理这1100万条专利数据的部分原因,是因为我们认为Hadoop使用起来比较复杂,而且对于Hadoop来说,处理1100万条数据属于大材小用。简而言之,仔细考虑一个工具是否与我们的目标需求相适应和相匹配是十分重要的。12.最后,用一个简单的原则来总结如何衡量一个工具是否可用于专利分析,即这个工具对我有没有用?