面向合作伙伴选择的英文Web信息获取系统研究
优采云 发布时间: 2020-08-11 18:30面向合作伙伴选择的英文Web信息获取系统研究
[] [浏览:1403次] [2010/8/25 16:16:29]
面向合作伙伴选择的英文Web信息获取系统研究
作者:邱云飞邵良杉那宝贵
作者简介:
邱云飞,辽宁工程技术大学,博士,副教授。
邵良杉,辽宁工程技术大学,博士,教授。
摘要:本文研究应用WEB信息抽取技术在互联网上主动搜索合作伙伴的理论与技巧,提出了面向合作伙伴选择的英文Web信息获取系统的总体构架,并剖析了实现该系统的关键技术—基于元搜索的网页采集、基于样本公共特点的*敏*感*词*页过滤、基于模式的企业信息抽取,并对这三个关键技术进行了详尽的介绍。最后,按照作者提出的思想,编程实现了一个面向合作伙伴选择的英文Web信息获取原型系统,利用该系统验证了作者所提方式的可行性及证明了该技巧的准确性。
关键词:合作伙伴;Web挖掘;元搜索;文本过滤;信息抽取
1.引言
虚拟*敏*感*词*要是针对企业核心能力资源的一种整合,即将投资和管理的注意力集中在企业本身的核心能力上,而一些非核心能力、或自己短时间内不具备或不需要具备的核心能力则转向借助外部的虚拟企业伙伴来提供。因此,虚拟企业中的伙伴选择是一个非常重要的问题,它直接关系到虚拟企业的胜败。
WWW推出后,Internet成为全球最大的信息来源,其多元化的信息模式和丰富的信息内容为虚拟企业合作伙伴的选择提供了大量的素材积累。另一方面,正是因为Internet的海量性、动态性、非结构性、异构性和地理分布性等特性,使得传统的研究途径已不能适应网路环境下的信息获取、处理和借助的须要。
本文建立了面向合作伙伴选择的web信息获取系统的总体框架,给出了系统的实现流程,并对在互联网上手动提取企业相关信息(例如企业名称、企业规模、生产能力、联系方法等)的理论与技巧所涉及到的信息搜索、文本过滤、信息抽取等相关技术进行了剖析,最后实现了一个面向合作伙伴选择的英文Web信息获取原型系统。
2.面向合作伙伴选择的web信息获取系统总体框架
2.1系统需求剖析
本系统从虚拟企业合作伙伴选择的角度出发,构建面向web的潜在伙伴信息获取系统,主要功能是从Internet上手动获取有可能成为核心企业合作伙伴的企业基本信息,从而为核心企业提供强悍的潜在合作伙伴信息库,为其后期进行合作伙伴选择打下良好的基础。
根据调查剖析,有关潜在合作伙伴的基本信息通常分布在一些综合性网站、行业性网站、商情网站(类似B2B网站等)、企业网站上。某一企业在这种网站上提供的信息基本上都是相同的,但和其他网站提供的企业相关信息相比,企业自有网站提供的信息要愈发全面,而且也比较权威。而对整个企业网站而言,对企业做整体介绍的通常在*敏*感*词*页上,因此,*敏*感*词*页上的信息便是本系统要获取的主要对象。
2.2系统的总体框架
根据以上的剖析,设计系统的总体构架如下图1所示。系统由网页采集子系统、文本过滤子系统、信息抽取子系统、人机交互子系统、web文本库、*敏*感*词*页库、潜在伙伴信息库七部份组成。
图1面向合作伙伴选择的web信息获取系统总体构架
其中,网页采集子系统按照关键字从Internet上搜索网页,并将搜索到的网页下载到本地web文本库中;文本过滤子系统对web文本库的网页进行文本过滤,主要目的是将富含潜在伙伴信息的*敏*感*词*页筛选下来,最后保存到*敏*感*词*页库中;信息抽取子系统对*敏*感*词*页库的每位网页进行信息抽取,主要目的是将潜在伙伴的企业基本信息提取下来,最后保存到潜在伙伴信息库中;人机交互子系统为用户与潜在伙伴信息库的交互提供一个可视化界面,方便用户查询潜在伙伴的基本信息。
3.面向合作伙伴选择的web信息获取系统设计
3.1系统实现思路
从系统总体框架及各模块说明可以看出,要实现整个系统,网页采集子系统、文本过滤子系统、信息抽取子系统三部份的设计与实现是整个系统实现的重点和难点,也可以说是系统实现的关键技术。针对三个子系统的特性,本文提出了基于元搜索的网页手动采集、基于样本公共特点的*敏*感*词*页过滤、基于模式的*敏*感*词*页信息抽取三个方式,并完成了相应技术。
3.2基于元搜索的网页手动采集子系统设计
元搜索引擎(MetasearchEngine),被称为搜索引擎之上的搜索引擎。用户只需提交一次检索恳求,由元搜索引擎负责转换处理后递交给多个预先选取的独立搜索引擎,并将所有查询结果集中上去以整体统一的格式呈现到用户面前。相对元搜索引擎,可被借助的独立搜索引擎称为“源搜索引擎”(sourceEngine),或“搜索资源”(searcingresources)。