搜索引擎主题模型优化(通用型垂直搜索引擎的行业应用模型建模方法,垂直搜索核心模块S)

优采云 发布时间: 2021-10-08 21:30

  搜索引擎主题模型优化(通用型垂直搜索引擎的行业应用模型建模方法,垂直搜索核心模块S)

  @1))。本发明专利技术解决了在一个模型中同时覆盖不同行业应用、不同网页、不同行业信息结构和存储结构的问题,使垂直搜索可以完成对数据的识别、抓取、组织、存储和传输。不同行业、不同结构的互联网信息,从而具备通用垂直搜索引擎的多行业应用能力。@1))。本发明专利技术解决了在一个模型中同时覆盖不同行业应用、不同网页、不同行业信息结构和存储结构的问题,使垂直搜索可以完成对数据的识别、抓取、组织、存储和传输。不同行业、不同结构的互联网信息,从而具备通用垂直搜索引擎的多行业应用能力。

  下载所有详细的技术数据

  【技术实现步骤总结】

  该专利技术公开了一种基于。二.

  技术介绍

  许多文档将垂直搜索定义为针对单个应用程序或单个功能的搜索技术。现实中,垂直搜索产品和门户网站都是按照这个定义布局的,或者房地产信息搜索门户,或者博客信息搜索门户,或者音乐信息搜索门户,或者专利信息搜索门户。. 造成这种现象的原因是互联网信息垂直搜索具有明显的行业应用特征、功能应用特征和结构特征。也就是说,由于垂直搜索面临的互联网信息具有明显的行业应用特征、功能应用特征、结构特征,这些极其不同的信息特征导致了垂直搜索门户的单一行业或功能。事实上,垂直搜索引擎的核心模块——数据爬取模块蜘蛛本身可以作为通用技术,并没有严格的行业应用或功能应用边界。一个好的数据爬虫软件原则上可以完成任何网页、任何行业信息的数据爬取任务。由此看来,目前垂直搜索技术只适用于单一行业或功能门户的现状,并不在于垂直搜索本身的核心技术——数据爬虫软件蜘蛛,而是来自于核心技术之*敏*感*词*绕具有通用能力的数据爬虫软件构建具有通用能力的*敏*感*词*系统,是实现通用垂直搜索引擎的关键。构建与通用数据爬虫软件蜘蛛相匹配、具有通用能力的行业应用模型是系统研究的重要课题之一。三. 构建与通用数据爬虫软件蜘蛛相匹配、具有通用能力的行业应用模型是系统研究的重要课题之一。三. 构建与通用数据爬虫软件蜘蛛相匹配、具有通用能力的行业应用模型是系统研究的重要课题之一。三.

  技术实现思路

  该专利技术的目的是提供一种用于一般垂直搜索系统中描述不同行业应用或功能应用特征的方法,使垂直搜索能够根据互联网信息完成识别、捕获、组织和存储。它的行业模型和传输应用,使其具备了通用垂直搜索引擎的能力。该专利技术的技术方案就是该专利技术。垂直搜索核心模块Spider 1接入行业应用模型2,实现对不同行业信息的识别、抓取、组织、存储和传输。行业应用模型2由互联网网页库21和网页组成。存储分类索引管理组件211、网页结构信息模型库22和网页结构信息模型管理组件221、行业信息结构模型库23和行业信息结构模型管理组件231、行业信息存储模型库24和行业信息存储模型管理组件241、、用户系统界面模型库25和用户系统界面模型管理组件251构成。互联网网页库21和网页存储分类索引管理组件211负责互联网网页库21的存储、分类和索引管理任务。网页存储分类索引管理组件211调用G00gleAPI212搜索行业应用网页URL集合;网页结构信息模型库22和网页结构信息模型管理组件221承担页面和行业应用关系的分析、描述、页面访问控制、页面转换链接控制、描述和管理等任务。行业信息结构模型库23及行业信息结构模型管理组件231负责各种网页中各种行业信息的不同结构形式和页面位置的描述、提取、生成和管理任务。行业信息存储模型库24和行业信息存储模型管理组件241负责系统中各种存储形式和存储结构的描述,从行业信息中获取信息后存储结构的动态生成和管理任务。网页;用户系统界面模型库25和用户系统界面模型管理组件251专用于每个用户的信息存储形式和系统间存储结构转换、信息传输界面、软件界面关系形式、界面定义等的描述、生成和管理任务。称呼。从网页中抓取行业信息后,存储结构的动态生成和管理任务;用户系统界面模型库25和用户系统界面模型管理组件251专用于每个用户的信息存储形式和系统间存储结构转换、信息传输界面、软件界面关系形式、界面定义等的描述、生成和管理任务。称呼。从网页中抓取行业信息后,存储结构的动态生成和管理任务;用户系统界面模型库25和用户系统界面模型管理组件251专用于每个用户的信息存储形式和系统间存储结构转换、信息传输界面、软件界面关系形式、界面定义等的描述、生成和管理任务。称呼。

  网页结构信息模型库22至少收录行业及应用、行业信息分类描述、网页地址URL、网页访问入口参数(用户名、密码、方法代码等)、网页链接方法、网页链接控制参数等信息. 网页结构信息模型管理组件221至少包括网页结构信息模型库22基本信息的生成和维护、网页访问入口参数(用户名、密码、方法代码等)库信息的生成和维护,网页链接方法、网页链接控制参数库信息的生成与维护、网页链接控制代码片段的提取/转换/存储、调用处理等功能处理模块。行业信息结构模型库23至少包括行业及应用、行业信息分类描述、网页地址URL、行业信息结构类型、行业信息结构初始标识、行业信息结构描述、行业信息结构中的元数据属性描述、行业信息结构周期捕获标识、行业信息结构捕获端标识、行业信息结构存储指令等信息。行业信息结构模型管理组件231至少包括行业信息结构模型库23的基础信息生成和维护等功能处理模块,

  行业信息存储模型管理组件241至少包括行业信息存储模型库24的基础信息生成与维护、行业信息存储结构的动态生成、行业信息存储映射控制、行业信息存储转换等功能处理模块。加工。该专利技术的显着效果在于,该专利技术从网页索引、网页结构、行业信息结构、行业信息存储结构和用户系统界面五个层面建立了与行业应用信息搜索相关的完整描述和管理。该系统解决了同时覆盖不同行业应用、不同网页、并且在一个模型中具有不同的行业信息结构和存储结构,因此它具有行业范围的能力。该专利技术将使垂直搜索能够完成对不同行业、不同结构的互联网信息的识别、抓取、组织、存储和传输,从而具备通用垂直搜索引擎的多行业应用能力。四. 附图说明图1为专利技术*敏*感*词*。

  图3是专利技术行业应用模型中行业信息结构模型库的结构示例。图4是专利技术行业应用模型中行业信息存储结构模型库的结构示例。五. 具体实施方式实施例一如图1所示。2、本实施例举例说明了专利技术行业应用模型中网页结构信息模型库的结构示例。示例二参见图3。本实施例举例说明了专利技术的行业应用模型中的行业信息结构模型库的结构示例。有关示例 3,请参见图 4。本实施例以专利技术的行业应用模型中的行业信息存储结构模型库的结构为例进行说明。权利要求1.,其特征在于垂直搜索核心模块Spider(I)接入行业应用模型(2),实现不同行业信息的识别、抓取、组织、存储和传输,行业应用模型(2)由互联网网页库(21)和网页存储分类索引管理组件(211))、网页结构信息模型库(22)和网页结构信息模型管理组件(221),行业信息结构模型库(23)

  【技术保护点】

<p>页面和行业应用关系的描述、页面访问控制、页面转换链接控制、描述和管理任务;行业信息结构模型库(23)和行业信息结构模型管理组件(23

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线