自动采集子系统(本文研究应用WEB信息抽取技术在互联网上主动搜索合作伙伴的理论与方法)

优采云 发布时间: 2021-09-29 10:11

  自动采集子系统(本文研究应用WEB信息抽取技术在互联网上主动搜索合作伙伴的理论与方法)

  关于作者:

  邱云飞,辽宁工业大学,博士,副教授。

  邵良山,辽宁工业大学,博士,教授。

  摘要:本文研究了应用WEB信息抽取技术在互联网上主动搜索合作伙伴的理论和方法,提出了一个用于合作伙伴选择的中文Web信息获取系统的总体架构,并分析了实现基于系统的网络信息获取系统的关键技术。元搜索网页采集、基于样本公共特征的*敏*感*词*页过滤、基于模式的企业信息抽取,并详细介绍了这三项关键技术。最后,根据作者提出的思路,通过编程实现了一个用于合作伙伴选择的中文Web信息获取原型系统,并通过系统验证了作者提出的方法的可行性并证明了该方法的准确性。

  关键词:合作伙伴;网络挖掘;元搜索;文本过滤;信息抽取

  1.简介

  虚拟*敏*感*词*要是针对企业核心能力资源的整合,即投资和管理的重点是企业自身的核心能力,以及一些非核心能力,或者他们不具备的核心能力。在短时间内拥有或不需要。转向依赖外部虚拟业务合作伙伴提供。因此,虚拟企业中合作伙伴的选择是一个非常重要的问题,直接关系到虚拟企业的成败。

  WWW推出后,互联网成为全球最大的信息来源,其多样化的信息方式和丰富的信息内容为虚拟企业合作伙伴的选择提供了大量的物质积累。另一方面,正是由于互联网海量、动态、非结构化、异构和地域分布的特点,传统的研究方法已经不能满足网络环境中信息获取、处理和利用的需要。

  本文构建了一个用于合作伙伴选择的网络信息获取系统的总体框架,给出了系统的实现过程,并自动提取了与企业相关的信息(如企业名称、企业规模、生产能力、*敏*感*词*等)。对Internet信息搜索、文本过滤、信息抽取等相关技术所涉及的理论和方法进行了分析,最终实现了一个用于合作伙伴选择的中文Web信息获取原型系统。

  2.合作伙伴选择的网络信息获取系统总体框架

  2.1 系统需求分析

  本系统从虚拟企业合作伙伴选择的角度构建了一个面向网络的潜在合作伙伴信息获取系统。主要功能是从互联网上自动获取可能成为核心企业合作伙伴的基本信息,从而为核心企业提供强大的潜力合作伙伴信息数据库,为其后期的合作伙伴选择奠定良好的基础。

  根据调查分析,潜在合作伙伴的基本信息一般分布在一些综合性网站、行业网站、业务网站(类似B2B网站等)。 ), 企业网站向上。一家公司在这些网站上提供的信息基本相同,但与网站提供的其他公司相关信息相比,公司自己的网站提供的信息更加全面和权威性。对于整个企业网站,企业的一般介绍一般都在*敏*感*词*页上,所以*敏*感*词*页上的信息是本系统需要获取的主要对象。

  2.2 系统整体框架

  基于以上分析,设计系统的整体架构如下图1所示。系统由网页采集子系统、文本过滤子系统、信息抽取子系统、人机交互子系统、网页文本库、*敏*感*词*页库、潜在合作伙伴信息库七部分组成。

  图1 合作伙伴选择Web信息获取系统整体架构

  其中,网页采集子系统根据关键字从互联网上搜索网页,并将搜索到的网页下载到本地网络文本库;文本过滤子系统对网络文本库的网页进行文本过滤,主要目的是筛选出收录潜在合作伙伴信息的公司主页,最后保存在公司主页库中;信息提取子系统从公司主页库的各个网页中提取信息,主要目的是提取潜在合作伙伴公司的基本信息,最后保存到潜在合作伙伴信息数据库;

  3.合作伙伴选择的Web信息获取系统设计

  3.1 系统实现思路

  从系统的整体框架和各个模块的描述可以看出,为了实现整个系统,网页采集子系统、文本过滤子系统、文本过滤子系统三部分的设计与实现信息抽取子系统是整个系统实现的重点和难点。也可以说是系统实现的关键技术。针对三个子系统的特点,提出了基于元搜索采集的自动网页、基于样本公共特征的*敏*感*词*页过滤、基于模式的*敏*感*词*页信息提取三种方法,并完成了相应的技术.

  3.2 基于元搜索的网页自动子系统设计采集

  元搜索引擎(MetasearchEngine)被称为搜索引擎之上的搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负责转换过程,然后提交给多个预先选定的独立搜索引擎,将所有查询结果汇总并以统一格式呈现给用户. 相对于元搜索引擎,可以使用的独立搜索引擎被称为“sourceEngines”或“搜索资源”。

  本系统利用元搜索引擎将关键词提交给现有的搜索引擎进行搜索,然后将搜索到的网页自动下载到本地,这是整个系统实现的第一步。具体系统结构如下图2所示。该子系统由三部分组成:会员搜索和调用模块、结果页面分析模块和网页下载模块。

  网页采集流程如下:

  1) 首先将关键词提交给各会员搜索引擎(如google、百度等),该会员搜索引擎根据系统提供的关键词进行搜索,并返回相应的结果[1,2]。

  2) 接下来分析各个成员搜索引擎返回的搜索结果页面。首先获取搜索结果页面的源代码,然后在源代码中提取每个搜索结果连接的URL。提取URL,发送到网页下载模块进行网页下载。该模块的关键技术之一是在源代码中提取与每个搜索结果相关联的URL技术。

  3) 由于一般搜索引擎的每个搜索结果页面只收录一定数量的搜索结果(谷歌和百度10条),通常不能满足信息采集模块采集对于一个大量网页,因此需要转到下一个搜索结果页面。然后从下一个搜索结果页面中提取与搜索结果相关联的网址,发送到网页下载模块下载该网页。

  4) 判断是否满足用户要求的网页数量,如果不满足,继续3);如果遇到,停止。

  图2网页采集子系统结构及流程

  3.3 基于样本公共特征的企业首页过滤子系统设计

  由于文本采集模块的限制,即使是关键字搜索也不能保证网络文本库中的所有页面都收录潜在合作公司的基本信息。因此,有必要对网页文本库中的网页进行过滤,筛选出符合用户意图的网页。其架构如下图 3 所示。该子系统由三部分组成:成员文本分析模块、样本分析模块和特征匹配模块。

  文本过滤的过程如下:用户首先选择几个符合要求的文本作为样本,然后提取样本的共同特征,利用样本的共同特征匹配每个文本的文本特征,计算匹配值,并使用匹配值的大小来判断文本是否满足用户需求。用户可以根据过滤后的结果考虑换样,也可以根据用户需求的变化换样,以达到反馈给系统的目的。

  1)首先,用户在网络文本库中选择几个符合用户意图的网页作为样本(一般为2-5个),将这些样本提交给样本分析模块,样本分析模块提取样本的共同特征[3]。

  2) 文本分析模块对网络文本库中的所有网页进行特征提取[4]。

  3)利用样本的共性特征匹配各个网页的特征,计算相关性,通过相关性与用户设置的阈值的比较来判断文本是否满足需求用户。

  图3 *敏*感*词*页过滤子系统的结构和流程

  3.4 基于模式的*敏*感*词*页信息抽取子系统设计

  经过前面的网页采集模块和文本过滤模块的工作,收录潜在合作伙伴公司信息的网页已经保存在公司主页数据库中。本文结合*敏*感*词*页上企业信息的分布和构成特点,设计了企业基本信息的抽取模式,最终实现了*敏*感*词*页上企业基本信息的抽取。系统结构如下图4所示。该子系统由成员文本内容抽取模块、抽取规则定义模块、企业信息抽取模块三部分组成。

  图4 信息抽取子系统整体结构及流程

  提取*敏*感*词*页信息的过程如下:

  1) 从企业文本库中提取网页文本,发送至文本内容提取模块。

  2) 文本内容提取模块获取企业文本库提供的网页文本源代码,去除HTML标签等处理,将最终的文本内容提交给企业信息提取模块。

  3)抽取规则定义模块根据公司首页的特征等背景领域知识定义抽取规则,并将定义的抽取规则提交给企业信息抽取模块。本文主要定义了公司名称、规模、生产能力和质量认证等几种提取模式,模式定义方法可参见文献[5,6]

  4)企业信息抽取模块根据抽取规则定义模块提交的抽取规则,从文本内容抽取模块发送的文本内容中抽取信息,并将最终抽取结果提交给候选合作伙伴数据库[7, 8]。

  4. 用于合作伙伴选择的网络信息获取原型系统的实现

  4.1系统概述

  为了验证本文提出的思路,为核心企业提供一个真正的WEB信息采集软件,可以在合作伙伴选择过程中使用,笔者使用MicrosoftVisualStudio.NET2003和Access2000在Windows平台上开发了一个虚拟企业2000服务器。合作方选定的中文网页信息采集原型系统。该系统在一定程度上可以帮助核心企业从大量网络信息资料中获取潜在合作伙伴的企业相关信息,对下一步合作伙伴的选择起到了很好的支持作用。

  4.2网页自动采集子系统的实现

  自动网页采集子系统主要包括三个模块:调用会员搜索引擎、从搜索结果中提取超链接、自动下载网页。

  搜索引擎调用模块调用成员搜索引擎时,原则上应该调用多个成员搜索引擎,但由于时间限制,我们只在原型系统中实现了对百度搜索引擎的调用,对其他成员的调用搜索引擎的方法类似于调用百度。

  由于百度不提供免费接口,所以在连接搜索引擎时,使用下图代码连接百度。编程语言是c#。

  字符串pn, wd, cc;

  pn="0"; wd=System.Web.HttpUtility.UrlEncode(this.textBox2.Text, System.Text.Encoding.GetEncoding("GB2312"));

  cc=";si=&rn=10&ie=gb2312&ct=0&wd="+wd+"&pn="+pn+"&cl=3";

  其中,pn代表搜索引擎返回结果的页码;wd 表示搜索关键字的编码;System.Web.HttpUtility.UrlEncode()函数的作用是将中文关键字转换成相应的编码。变量cc代表连接百度的接口的URL。通过这个网址,可以得到百度在执行关键词查询后返回的页面。

  在百度返回的查询页面中,除了关于查询关键词的超链接外,还有一系列与关键词无关的链接,比如脚本语言指向的超链接,百度快照链接,以及广告链接。因此,搜索结果超链接提取模块通过对查询返回页面的仔细分析,提出了一种提取查询返回结果URL的有效方法。该方法包括GetPageSource(stringurl)和GetHyperLinks(stringhttpcode)两个函数,其中GetPageSource(stringurl)用于获取网页的html源代码,GetHyperLinks(stringhttpcode)用于获取网页返回结果中的超链接URL询问。

  最后,函数downloadpage(stringurl,stringpath)被设计用来下载URL对应的页面并保存到web文本库中。成为下一次文本过滤工作的文本源。

  4.3 企业首页过滤子系统的实现

  *敏*感*词*页过滤子系统涉及一些网页文本分析技术,包括获取网页源代码、去除HTML标签、去除非中文字符、中文分词、去除停用词、词频统计、特征提取等操作。获取网页源代码,去除HTML标签,去除非中文字符实际上是在处理HTML文本文件,所以最简单的方法就是去除所有HTML标签,剩下的内容作为纯文本处理。

  对于中文分词,我们使用CSW中文分词组件5.0,提供c#接口调用。首先运行该组件包中的install.bat文件,在系统中注册该组件。然后在开发工具中引用CSW.dll组件,以下是在C#控制台应用中调用该组件的示例代码。

  CSWLib.SplitWordClasscsw=newCSWLib.SplitWordClass();

  stringtext=csw.Split("要拆分的原创文本", 0, @"c:\winnt\system");

  这里我们使用的是免费的CSW中文分词组件5.0共享版。此版本只有中文分词功能,没有词频统计功能。因此,我们需要自己完成词频统计的过程。为了方便日后提取网页特征,我们将中文分词和词频统计的结果保存到access数据库的wordcount表中。

  4.4 信息抽取子系统的实现

  在原型系统中,基于对公司主页信息特征的分析,结合正则表达式字符串匹配技术构建了公司主页信息抽取模型,实现了公司名称、成立年份、公司区域、资产信息、人员信息和生产能力。、质量认证等信息抽取。

  5.结论

  利用从互联网上自动获取企业信息来支持虚拟企业合作伙伴选择活动的研究还处于起步阶段,还有很多问题需要深入探讨。本研究基于实验。由于条件有限,实验规模小,得出的结论具有一定的局限性。此外,虚拟企业合作伙伴选择过程中的信息需求多样复杂,需要进一步研究,进一步明确合作伙伴选择过程中的信息需求。进一步研究主要有以下思路:

  1) 进一步研究合作伙伴选择过程中的网页信息需求,使信息提取不仅限于提取*敏*感*词*页,还可以收录其他可以收录企业相关信息的网页,例如行业< @网站、业务网站等等。

  2) 本文实现的*敏*感*词*页过滤效果结合基于样本共同特征的文本过滤方法仍有一定的局限性,需要探索更合适的*敏*感*词*页过滤方法。

  参考

  [1] 李晓明、闫鸿飞、王继民,《搜索引擎——原理、技术与系统》,科学出版社,2005。

  [2]JohnD.TheAnatomyofLarge-ScaleHypertertextualWebSearchEngine[C].In:Procofthe7thInt'1worldwidewebconf.Brishane.Austrilian,1999.

  [3] 刘明基,等。Web文本信息特征获取算法[J]. 小型微机系统,2002,23(6):684-687

  [4]秦晋,等。文本分类中的特征提取[J]. 计算机应用, 2003,23(2):45-46.

  [5]VoertA.AutomaticExtractionofInformationBlocksUsingPATTrees[C].Proc.oftheNationalComputerSymposium,Taipei,Taiwan,1999(6):223-226.

  [6]张炳奇,等。企业相关信息抽取技术研究与系统实现[J]. 微电子与计算机, 2004, 21(1):1-6.

  [7] 袁占庭,等。数据提取与语义分析在Web数据挖掘中的应用[J].计算机工程与设计,

  [8] 陈展荣,等。网络中文资料的智能提取与词汇切分[J]. 计算机工程与设计, 2005, 26 (6):1422-1424.

  本文受国家自然科学基金项目(70971059),辽宁省创新团队项目(2006T076,2008T090,2009T045))资助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线