关键词自动采集(关键词自动抽取系统现有的检索系统中对关键词的抽取主要采用人工操作的方法)
优采云 发布时间: 2021-09-07 00:01关键词自动采集(关键词自动抽取系统现有的检索系统中对关键词的抽取主要采用人工操作的方法)
关键词自动提取系统在现有的检索系统中,关键词的提取主要采用手工方式。由于这种方法存在许多无法克服的问题,因此并未得到广泛应用。主要问题是:1)太贵了。一是每份文件都需要专业技术人员处理,对人员素质要求高;另一个是效率很低,每个文档都需要全文浏览才能有高质量的关键词提取。 2)标准难以制定。一个文档中哪些是关键内容,哪些是次要内容,很难有一个明确的标准,更难的是用规则来确定。 3)标准实施难统一。因为是手工加工,大家对标准的理解并不统一;每个人的严重程度不一致都会影响标准的实施。 4)处理能力僵化,不能适应专利文献量的变化。由于专利文献量不一,人员需要长期培训,难以及时改变。 5)提取的关键词对检索的帮助有限。由于提取的关键词是供人看的,计算机无法理解提取的关键词。随着计算机能力的提高,全文检索现在已经很普遍了,所以现有的手动提取关键词的方法不会对全文检索的性能有很大的提升。了解这些不足,patentics开发了基于智能语义检索技术的具有自主知识产权的关键词自动提取系统。系统可以完全自动从整个专利文献中提取出最能代表该文献含义的关键词。
统一标准,全自动操作,高效准确。并且提取的关键词 是计算机可读和可理解的。这为提取的关键词 提供了许多扩展属性。 1Patentics Application Note.12 (一)Basic Principles) 从信息论的角度来看,考察向量空间模型(VSM)下的文本向量,很容易注意到每个文档就像一个独立的信息源观察者观察此信息源发出的每个特征用于累积有关此信息源的信息的次数。算法要处理的文本向量就是这些信息源的观察数据。事实上,正是由于VSM的局限性,观察者进行聚类或分类时,文档中只有两种信息:文档中每个特征词的出现频率。文档的长度。由于文章的长度与文章所属的类别的关系不是很大,下面假设所有文章都已经归一化了,长度为N。 这样,对于文档向量d,特征词出现的频率可以用d = (f 1 ,f 2 ,Λ ,fi ,Λ ,f M )表示,∑fi = 1i,也可以用归一化后的特征词出现的频率来表示d = (t ,t ,Λ,t,Λ,t), ∑t = N1 2 i Mi 表示 i。这传达的信息是一样的。以这种方式表示的信息源实际上是一个离散的无记忆信息源,因为没有任何特征出现顺序的信息。
为了得到一个簇的目标函数,需要进一步检查文档类别。每个文档类别c是一个文档的集合,合理的类别应该能够尽可能反映集合中文档的共性。而且,类别的分类越详细,类别内的文档的共性越多,相异性越小。通过定量描述类别的共性以及类别与文档之间的差异,可以给出合理的优化目标。我们把文档看作一个离散的无记忆信息源,那么文档类就是一个信息源的集合。如果我们从外部观察者那里检查这个信息源集的输出,我们无法区分某个特征的某个出现是来自那个源,整个集被视为 2Patentics Application Note.12 的单一来源。我们将每个文档类视为一个来源。显然,这个来源仍然是 a 1f i (c) = ∑fi (d )i|c | d∈c离散非记忆源,其第一个特征出现频率为,| | | c 表示收录在 c 中的文档数。 这样,我们可以将文档类别的特征表示为: c = (f (c) ,f (c) ,Λ ,f (c) ,Λ ,f (c) ) ), ∑f (c) = 112iMii or use features 的频率表示为:c = (t (c) ,t (c) ,Λ ,t (c) ,Λ ,t (c) ), ∑t (c) = N | c |1 2iMii Source 我们可以表征属于该类别的文档的共性。
为了得到合成源和文档之间差异的定量表达,注意错误!没有找到报价!未发现引用错误! !未找到参考源。未找到参考源。节中介绍的不等式。 : 使用源使用源。 . P = (p, p ,Λ, p ), 1 ≤ i ≤ n 任何 m 维概率向量 i1i 2imi 和任何 n 维概率向量 Q = (q ,q ,Λ ,q ,Λ ,q )1 2in 有下面的不等式成立[错误错误!没有定义书签!没有定义书签。 . ]:错误错误! !未定义的书签 未定义的书签。 . nnnn∑q H(p, p ,Λ, p) ≤ H (∑qp, ∑qp ,Λ, ∑qp)im 1i 2imimi 1ii 2ii mii=1i=1i=1i=11 11Q = (, ,Λ, )n nn1 44 2 4 43nNn 令,并乘以不等式的两边,我们得到: n1 n1 n1 n∑NH m (p 1i ,p 2i ,Λ, p mi) ≤ NnH m (∑p 1i, ∑p 2i ,Λ , ∑ p mi )i=1n i=1 ni=1n i=1PiiN 如果表示文档的频率向量,则表示特征词数 NH m (p 1i, p 2i ,Λ, p mi )i出现在每个文档中,则表示该文档收录的信息总量。
对应的c = {d ,Λ,d}不等式的右边部分表示(表示信息源)中收录n个文档的文档类的信息总量。这说明单个文献的信息量之和小于文献3 Patentics Application Note的信息量。对于熵的概念,我们应该选择信息损失最少的聚类方案。如果文档类中的文档具有相似的特征词频分布,则该文档类的特征词频分布的相应变化较小,因此信息变化量也较小。可以看出,从一个文档到一个文档类别的信息量的变化,正好可以描述文档类别中文档之间特征分布的差异。 1 n 1 n1 nn∆H (c) = NnH (∑P, ∑P ,Λ, ∑P) − ∑NH (P ,P ,Λ ,P )m1i2imim 1i 2i min i=1 ni=1n i=1 i =1= NnH (c) − ∑NH (d )d∈c{}= N ∑ H (c) − H (d) ≥ 0d∈c 为了评估每个文档与其类别之间的差异,一个目标函数可以定义 arg min N ∑∑{H (c) − H (d )}Ωc∈Ω d ∈cΩ 以找到给定数量类别的最佳分类方案。
在层次聚类过程中,每一步的局部优化目标可以简化为{}N ∑ H (c) − H (d) ˆd∈cc = arg min, c = c Υ ci kc| c |,其中我们考虑了文档类中文档数量的差异。在层次聚类中,通过在每一步选择信息丢失最少的方案来选择聚类的路径。当相似类别的文档归为一类时,由于其主要特征的频数分布比较接近,混合源的特征分布变化不大,因此平均信息量(熵)变化不大。当不同类别的文档混合(即错误分类)时,混合源的特征分布会发生显着变化,分布会变得更加均匀,从而增加了平均信息量。这样,目标函数就会选择特征分布相似的文档(类)来达到分类的目的。这里实际上有一个基本假设:语义相似的文档应该倾向于具有相似的特征分布。 4Patentics Application Note.12(二)系统Block Diagram Chinese full field of many 现有中文专利级词典文档分词系统:根据词典,将专利文档划分为词条-文档相关矩阵,建立海量矩阵解决方案算法:用于获取词条相关性 构建专利文献向量模型词条翻译系统 文档中英文最相关词条计算算法关键词acquisition and clustering device 5Patentics Application Note.12 具体组件介绍:中文多级全领域词典 全领域汉语多级词典:收录所有技术领域的词或词组,将整个汉语领域的汉语多级词典分为三级、几十种。
目前已完成超过700万个中文条目。现有中国专利文件 现有中国专利文件: 已下载所有中国专利:(包括现有的实用新型和发明的中国专利文件)。分词系统 分词系统:根据词典中的词条,快速准确地对专利文献进行分词。分词系统系统化程度高,效果非常好。词条词条相关矩阵的建立 文档相关矩阵的建立:分词系统输出的分词结果和专利文本:词条词条文档相关矩阵的建立 文档相关矩阵的建立:我们将共同建立词条—文档相关矩阵。质量矩阵求解算法 质量矩阵求解算法:采用具有自主知识产权的Patentics核心计算质量矩阵求解算法,质量矩阵求解算法方法对上面得到的质量矩阵进行降维,但同时保留了原创信息使得可以对数千万级的矩阵进行运算以获得条目的相关性。构建专利文献向量模型: 基于上述:基于上述术语相关性,为一个文档构建专利文献向量模型 构建专利文献向量模型: 基于上述基于上述文件中出现的词可以通过将条带与向量组合来获得文档的向量。词条翻译系统 词条翻译系统:由专利技术独立完成的中英文词条互译系统。词条翻译系统是词条翻译系统。与文档最相关的词条计算算法与文档最相关的词条计算算法:根据词条向量和文档向量之间的相关性:与文档最相关的词条计算算法与文档最相关的算法::度,分别计算出现在文档中的词条与文档的相关性。
中英文关键词acquisition and clustering device 中英文关键词acquisition and clustering device:通过词条传递最相关的词条:Chinese and English关键词acquisition and clustering device in Chinese and English关键词获取和集群设备:: 6Patentics Application Note.12 翻译,获取中英文关键词。 (三)Functional features (1)fullAutomation。所有工作均由计算机完成,无需任何人为参与。所有结果标准相同。(2)绝对安全:由于专利在发布前被归类为机密信息,本系统是本地系统与外网隔离,绝对安全。 (3) 兼容多种数据格式:如果数据是文本格式,可以直接处理,如果是图片格式,系统可以实现自动处理(4) 可以同时给出中英文关键词。(四)Case 对于中国专利CN1310423,专利关键词自动提取系统给出了32个关键词。根据将这32个关键词互之之每组之间的相关性分为4组,给出每组关键词与整个文档的相关性,下图为英文关键词.7Patentics Application Note.128Patentics应用说明.12