:通用型垂直搜索引擎的行业应用模型建模方法
优采云 发布时间: 2021-07-06 23:25:通用型垂直搜索引擎的行业应用模型建模方法
通用垂直搜索引擎的行业应用模型建模方法,垂直搜索核心模块Spider(1)Access Industry Application Model(2))实现对不同数据的识别、捕获、组织、存储和传输。行业信息、行业应用模型(2)山互联网web库(21))和web存储分类索引管理组件(211)、web结构信息模型库(22)和web结构信息模型管理组件) (22@k21)@、行业信息结构模型库(23)和行业信息结构模型管理组件(231))、行业信息存储模型库(24)和行业信息存储模型管理组件(24) 1),和用户系统界面模型库(25)和用户系统界面模型管理组件(251))。本发明的专利技术解决了同时覆盖不同行业应用、不同的网页、不同的行业信息结构和存储结构在一个模型中。它使垂直搜索能够完成对不同行业、不同结构的互联网信息的识别、捕获、组织、存储和传输,从而具备通用垂直搜索引擎的多行业应用能力。
下载所有详细的技术资料
【技术实现步骤总结】
该专利技术公开了一种基于。 二.
技术介绍
许多文档将垂直搜索定义为针对单个应用程序或单个功能的搜索技术。现实中,垂直搜索产品和门户网站就是按照这个定义布局的,或者房地产信息搜索门户,或者博客信息搜索门户,或者音乐信息搜索门户,或者专利信息搜索门户。所有这些都是如此。之所以出现这种现象,是因为垂直搜索互联网信息具有明显的行业应用特征、功能应用特征和结构特征。也就是说,由于垂直搜索面临的互联网信息具有明显的行业应用特征、功能应用特征和结构特征,这些千差万别的信息特征导致垂直搜索门户具有明显的单一行业或功能。事实上,垂直搜索引擎的核心模块——数据爬取模块蜘蛛本身可以作为通用技术,并没有严格的行业应用或功能应用边界。原则上,一款好的数据爬虫软件可以完成任何网页、任何行业信息的数据爬取任务。由此看来,垂直搜索技术只适用于单一行业或功能门户的事实并不在于垂直搜索的核心技术——数据爬虫软件蜘蛛,而是来自于核心技术之*敏*感*词*绕具有通用能力的数据爬虫软件构建具有通用能力的*敏*感*词*系统,是实现通用垂直搜索引擎的关键。构建与通用数据爬虫软件蜘蛛相匹配、具有通用能力的行业应用模型是系统研究的重要课题之一。 三.
技术实现思路
该专利技术的目的是提供一种用于一般垂直搜索系统中描述不同行业应用或功能应用特征的方法,使垂直搜索能够完成对互联网信息的识别、抓取和检索。其行业模式。组织、存储和传输应用程序,使它们能够成为通用的垂直搜索引擎。该专利技术的技术方案就是该专利技术。垂直搜索核心模块Spider 1接入行业应用模型2,实现对不同行业信息的识别、抓取、组织、存储和传输。行业应用模型2由互联网网页库21和网页组成。存储分类索引管理组件211、网页结构信息模型库22和页面结构信息模型管理组件221、工业信息结构模型库23和行业信息结构模型管理组件231、工业信息存储模型库24和行业信息存储模型管理组件241、、用户系统界面模型库25和用户系统界面模型管理组件251构成。互联网网页库21和网页存储分类索引管理组件211负责互联网网页库21的存储、分类和索引管理任务。网页存储分类索引管理组件211调用G00gleAPI212进行行业搜索应用程序网页 URL 集合;网页结构信息模型库22和网页结构信息模型管理组件221承担页面和行业应用关系的分析、描述、页面访问控制、页面转换链接控制、描述和管理等任务。行业信息结构模型库23及行业信息结构模型管理组件231负责各种网页中各种行业信息的不同结构形式和页面位置的描述、提取、生成和管理任务。行业信息存储模型库24和行业信息存储模型管理组件241负责系统中各种存储形式和存储结构的描述,从行业信息中获取信息后存储结构的动态生成和管理任务。网页;用户系统接口模型库25和用户系统接口模型管理组件251专用于每个用户信息存储形式和系统间存储结构转换、信息传输接口、软件接口关系形式、接口定义的描述、生成和管理任务并打电话。
网页结构信息模型库22至少收录行业及应用、行业信息分类描述、网页地址URL、网页访问入口参数(用户名、密码、方法代码等)、网页链接方法、网页链接控制参数等信息。网页结构信息模型管理组件221至少包括网页结构信息模型库22基本信息的生成和维护、网页访问入口参数(用户名、密码、方法代码等)库信息的生成和维护,网页链接方法、网页链接控制参数库信息的生成与维护、网页链接控制代码片段的提取/转换/存储、调用处理等功能处理模块。行业信息结构模型库23至少包括行业及应用、行业信息分类描述、网页地址URL、行业信息结构类型、行业信息结构初始标识、行业信息结构描述、行业信息结构中的元数据属性描述、行业信息结构周期捕获标识、行业信息结构捕获端标识、行业信息结构存储指令等信息。行业信息结构模型管理组件231至少包括行业信息结构模型库23的基础信息生成和维护、行业信息结构模型库23的信息辅助分析和自动提取等功能处理模块。模型库24个至少包括行业及应用、行业信息分类描述、行业信息存储目标库及基表指令、行业信息存储结构类型、行业信息存储映射描述、行业信息存储转换处理指令、行业信息存储相关处理说明和其他信息。
行业信息存储模型管理组件241至少包括行业信息存储模型库24的基础信息生成与维护、行业信息存储结构的动态生成、行业信息存储映射控制、行业信息存储转换处理等功能处理模块。该专利技术的显着效果在于,该专利技术从网页索引、网页结构、行业信息结构、行业信息存储结构和用户系统界面五个层面建立了与行业应用信息搜索相关的完整描述和管理。该系统解决了在一个模型中同时覆盖不同行业应用、不同网页、不同行业信息结构和存储结构的问题,具有全行业能力。这项专利技术将使垂直搜索能够完成对不同行业、不同结构的互联网信息的识别、抓取、组织、存储和传输,从而具备通用垂直搜索引擎的多行业应用能力。 四. 附图说明图1为专利技术*敏*感*词*。其中1=垂直搜索核心组件Spider2=行业应用模型21=互联网网页库211=网页存储分类索引管理组件212=GoogleAPI22=网页结构信息模型库221=网页结构信息模型管理组件23=行业信息结构模型库 231 = 行业信息结构模型管理组件 24 = 行业信息采集模型库 241 = 行业信息采集模型管理组件 25 = 行业信息存储模型库 251 = 行业信息存储模型管理组件 26 = 用户系统界面模型库 261 =用户系统界面模型管理组件图2是专利技术行业应用模型中网页结构信息模型库的结构示例。
图3是专利技术行业应用模型中行业信息结构模型库的结构示例。图4是专利技术行业应用模型中行业信息存储结构模型库的结构示例。 五.具体实施方式实例1如图1所示。 2、本实施例举例说明了专利技术的行业应用模型中网页结构信息模型库的结构示例。示例二参见图3。本实施例举例说明了专利技术的行业应用模型中的行业信息结构模型库的结构示例。实施例3参见图4。本实施例举例说明了专利技术的行业应用模型中的行业信息存储结构模型库的结构示例。权利要求1.,其特征在于垂直搜索核心模块Spider(I)接入行业应用模型(2)),实现不同行业信息的识别、抓取、组织、存储和传输,行业应用模型( 2)由互联网网页库(21)和网页存储分类索引管理组件(211),网页结构信息模型库(22))和网页结构信息模型管理组件(22@) k45@,行业信息结构模型库(23)和行业信息结构模型管理组件(231),行业信息存储模型库(24)和行业信息存储模型管理组(241),和用户系统界面模型库(2@k53)@和用户系统界面模型管理组件(251);互联网网页库(21))和web存储分类索引管理组件(211)承担)一世htemet web library(21)存储、分类和索引)管理任务,包括web存储分类索引管理
【技术保护点】
通用垂直搜索引擎行业应用模型建模方法的特点是垂直搜索核心模块Spider(1)Access行业应用模型(2))实现识别、捕获、组织、存储和传输应用、行业应用模型(2)来自互联网网页库(21))和网页存储分类索引管理组件(211)、网页结构信息模型库(22)和网页结构信息模型管理组件) (221),行业信息结构模型库(23)和行业信息结构模型管理组件(231),行业信息存储模型库(24)和行业信息存储模型管理组(24@k21) @)) ,以及用户系统界面模型库(25)和用户系统界面模型管理组件(251));其中:Internet web库(21)和web存储分类索引man agement组件(211))网页库(21)存储分类索引管理任务,包括网页存储分类索引管理组件(211)调用GoogleAPI(212))实现行业应用web页面网址集合搜索;网页结构信息模型库(22)和网页结构信息模型管理组件(221)承担页面之间关系的分析、描述、页面访问控制、页面转换链接控制、描述和管理任务)和行业应用;行业信息结构模型库(221)23)和行业信息结构模型管理组件(231),负责不同结构形式和页面的描述、提取、生成和管理任务)各种行业信息在各种网页中的位置;行业信息存储模型库(24)和行业信息存储模型管理组件(241),负责捕获各种信息后系统中存储结构的存储形式和描述)来自各种网页的行业信息,以及存储结构Task的动态生成和管理;用户系统int erface模型库(25)和用户系统接口模型管理组件(251),负责信息存储形式与存储结构、信息传输接口、软件之间的转换关系),每个用户特定的系统描述,接口关系表、接口定义和调用的生成和管理任务。
[技术特点总结]
[专利技术属性]
技术研发人员:刘学明、钱宇、张康、
申请人(专利权):,
类型:发明
国家、省市:32个
下载所有详细技术资料我是此专利的所有者