百度搜索引擎优化外包(通用搜索引擎虽能的工作流程及分类及适应垂直领域的服务)

优采云 发布时间: 2021-09-30 05:22

  百度搜索引擎优化外包(通用搜索引擎虽能的工作流程及分类及适应垂直领域的服务)

  在信息高度发达的今天,互联网上的信息量呈指数级增长。如何从海量数据中快速准确地找到自己需要的信息,成为了一个难点。一般的搜索引擎虽然可以覆盖所有资源,但其本质是搜索词匹配,很容易忽略用户搜索的真实意图。为了弥补通用搜索引擎的不足,实现对特定主题信息的检索,垂直搜索引擎应运而生,其结果更准确,信息挖掘层次更深,无效信息更少,更适合垂直领域的服务。领域。

  1 搜索引擎原理及分类1.1 搜索引擎原理

  搜索引擎的工作原理可以分为三个步骤。首先从互联网上查找并抓取网页信息,然后提取信息并建立索引数据库。最后一步是在索引库中进行搜索,排序后将结果返回给用户。搜索引擎的工作流程如图1所示。

  

  图 1 搜索引擎工作流程

  爬虫模块主要由网络爬虫组成。它根据一定的策略抓取互联网上的站点页面,记录每个被抓取页面的URL地址,并将网页内容下载并保存到系统存储库中。它的采集过程不是用户提交关键词后的及时搜索,而是提前采集保存网页进行处理。索引模块将抓取到的数据进行分词,计算权重,排序后存储在索引数据库中。检索模块收到检索请求后,从索引数据库中检索出与用户检索词匹配的信息,并按照用户查询的相关性排序后显示给用户。

  1.2 搜索引擎分类

  搜索引擎按其工作原理可分为全文搜索引擎、目录搜索引擎和元搜索引擎[1]。

  全文搜索引擎采用全文搜索技术提取每个网站页面的文本内容,处理后存储在自己的索引数据库中。当用户搜索时,全文搜索引擎根据用户的搜索词在自己的数据库中进行匹配,并按照一定的顺序将匹配的记录返回给用户。百度和谷歌是此类搜索引擎的代表。

  目录搜索引擎手动或*敏*感*词*采集网站信息,手动形成信息汇总,并根据页面资源的不同类型进行分类。用户只需要在目录分类描述中查找内容,整个搜索一目了然。雅虎、新浪、搜狐和网易搜索都属于这一类。

  元搜索引擎也叫多重搜索引擎、索引搜索引擎,是一种调用其他独立搜索引擎的引擎。当它接受用户的查询请求时,同时在其他多个搜索引擎上进行搜索,按照自定义算法整合各个搜索引擎返回的检索信息,将优化后的结果返回给用户。著名的元搜索引擎包括 InfoSpace、Dogpile、Vivisimo 等 [2]。

  2 垂直搜索引擎原理及功能模块设计2.1 垂直搜索引擎原理

  垂直搜索引擎是为特定领域的特定用户提供服务的搜索引擎。是对专业领域信息的深度挖掘。它集信息过滤、筛选、排序于一体,为用户提供专业的面向知识的检索[3]。与普通搜索引擎相比,垂直搜索引擎检索到的结果更专业、更详细,信息挖掘的层次更深。

  垂直搜索引擎的工作原理与全文搜索引擎类似。区别在于爬虫模块中的爬虫和词库。垂直搜索引擎的主题爬虫是一般网络爬虫的扩展,根据特定主题抓取网页,计算主题相关度。话题爬虫是垂直搜索引擎的核心技术之一。它不期望高覆盖率。它只抓取与特定主题高度相关的页面,并为特定用户查询提供数据基础[4]。

  2.2 采集模块设计

  信息采集模块的功能主要是从网上抓取与主题内容相关的信息和数据。它是整个垂直搜索引擎中最关键的模块之一。它采集的数据将直接决定用户检索信息的准确性,而数据的采集主要取决于主题爬虫。与普通网络爬虫的结构相比,在主题网络爬虫的结构中增加了主题模块、页面相关性评估模块和超链接评估模块。主题网络爬虫结构如下图2所示。

  主题模块用于限制主题网络爬虫抓取的网页范围。对于其他与主题无关的页面,则丢弃或不抓取。页面相关性评估模块直接决定主题爬虫抓取信息的质量和准确性,这是主题网络爬虫与一般爬虫的区别。在相关性评估之前,必须根据之前的经验和数据设置一个阈值。在计算网页的相关性后,将结果与其进行比较。如果计算结果小于设定的阈值,则表示该网页与主题无关,直接丢弃;如果计算结果大于阈值,则说明与主题相关,过滤保存。超链接相关性评估模块的作用是对主题相关页面中的链接进行优先排序。主题相关页面的相似度决定了优先级。相似度结果越大,页面内容越接近主题。5]。

  

  图2 主题网络爬虫结构

  主题爬虫首先根据初始*敏*感*词*链接爬取网页,然后根据主题模块判断页面相关性。如果页面信息与主题相关,则将页面内容存储在网页库中;如果页面内容与主题无关,则将其放弃。提取已爬取网页的所有链接,评估超链接的相关性,并将其存储在URL数据库中,以便主题爬虫将来对已爬取的链接进行去重。

  2.3 索引模块设计

  索引模块的作用是对采集的数据进行有序处理后构建倒排索引库,为以后的检索提供数据基础。索引模块主要由数据预处理、倒排索引库构建、索引库更新三部分组成。

  数据预处理是对采集的数据进行过滤清理,处理无关数据和重复数据。倒排索引库是索引模块的核心,索引结构与搜索引擎的查询速度密切相关。使用倒排索引结构可以在短时间内定位到搜索结果的具体位置。系统模块首先从预处理后的数据中提取数据库中检索搜索服务所需的字段,然后对数据信息进行分词处理,计算提取的关键词的权重,然后根据得到的< @关键词建立索引并对其内容进行排序。最后通过文档编号的差异对数据进行压缩,将压缩后的索引存入数据库[6]。

  

  图 3 倒排索引工作流

  互联网上的数据每天都在增加,主题网络爬虫也在抓取互联网上的相关页面,索引库的内容也在增加。为了不影响搜索引擎的检索速度,必须有合理的索引更新策略。作者对索引库的更新采用混合策略,混合不同的索引更新策略,形成更高的效率。混合策略一般根据词的不同属性对词进行分类,不同类型的词对其索引采用不同的索引更新策略[7]。这样可以节省系统开销,对搜索引擎检索速度影响不大。

  2.4 搜索模块设计

  用户搜索模块收录两个功能:搜索建议和搜索。搜索建议功能是用户在搜索框中输入自己认为的搜索词后,搜索引擎对索引库中的词进行模糊匹配,并在搜索框中提示相似或高度相关的词,方便用户比较后选择,以提高检索的准确性。

  搜索功能是垂直搜索引擎的核心。用户在搜索框中输入搜索词后,如果使用了搜索建议提供的词,则系统直接根据建议词搜索索引库并输出结果;如果用户没有选择推荐词,系统会根据用户的搜索词在数据库中搜索并返回结果[8]。检索模块的工作流程如下图4所示。

  

  图4 检索模块工作流程

  3 结束语

  随着互联网信息的爆炸式增长,人们进入了大数据时代。无论是工作还是生活,人们越来越依赖互联网,对垂直搜索引擎的专业要求也越来越高。希望垂直搜索引擎能够检索到范围更小、层次更深、粒度更细的资源。垂直搜索领域还有很多值得改进的地方。例如,隧道技术可以过滤掉不相关的网页以连接两个主题。主题相关性算法也需要更加完善,以提高垂直搜索引擎检索的完整性。这需要在后续工作中进一步研究。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线