搜索引擎主题模型优化(搜索引擎分为索引器-信息索引就是技术信息过滤信息)

优采云发布时间: 2022-02-12 02:00

　　搜索引擎分为四个部分：搜索器、索引器、爬虫和人机界面。建立索引是一个复杂的过程。索引数据库是搜索引擎前端和后端之间的桥梁，可以说是充当了管理者的角色。

　　下面简单介绍一下整个过程：

　　（1)Searcher（俗称网络蜘蛛机器人）从互联网上抓取网页，将网页发送到网页数据库，从网页中“提取URL”，将URL发送到URL数据库，继续抓取其他网页，并重复这个循环，直到所有网页都被抓取。

　　(2)系统对爬取的网页进行分类过滤，存储在网页数据库中，然后对网页内容进行分析，发送给索引器模块进行索引，形成一个“索引库”。同时提取链接信息，将链接信息（包括锚文本、链接本身等）发送到索引数据库（链接数据库）的相关表中，为网页评分提供依据。

　　(3)用户通过查询接口向查询服务器提交查询请求，服务器在“索引库”中搜索相关网页，同时“网页评分”结合查询请求和链接信息对搜索结果的相关性进行评价评价，通过查询服务器按照相关性排序，提取关键词的内容摘要，整理最终页面返回给用户。

　　在以上几个环节中，每个部分都可以通过不同的技术和模型来实现。分别作如下分析比较：

　　一、Searcher-Information采集技术细节可以参考我的另一篇文章文章：NetSpider的初步研究。这里主要强调信息过滤的重要性。因为在互联网上，有大量无用的信息，一个好的搜索引擎应该尽量减少垃圾邮件的数量。这是信息过滤应该重点解决的问题。

　　二、Indexer - 信息索引技术信息索引是对文档信息（如标题、作者、关键词、时间等）进行特征记录，以便用户快速检索到所需信息。索引一般有以下处理步骤：

　　(1)识别文档中的单词

　　（2)删除停用词）

　　（3)词干）

　　（4)用索引项标签替换词干）

　　(5)统计词干个数(tf词频)

　　（6)计算所有单个术语、短语和语义类的权重以进行索引的问题：

　　(1)信息分词与词法分析词是信息表达的最小单位。由于分词方式的不同，分词需要用到各种上下文知识。词法分析是指识别每个词干来索引信息基于单词。

　　（2)词性标注及相关的自然语言处理词性标注是指使用基于规则和统计（马尔可夫链）的数学方法对词进行标注。基于马尔可夫的N-gram统计链式随机过程分析方法在词性标注中可以达到很高的准确率使用各种语法规则来识别重要的短语结构自然语言处理是指将自然语言理解应用于信息检索中，可以提高准确率和相关性信息检索..

　　(3)建立检索项索引检索项索引是通过倒排文件的方式建立的，一般应包括“检索项”、“检索项所在文件位置信息”等信息”，以及“检索项的权重”。三、Retriever - 信息检索技术信息检索过程大致有以下几个步骤：

　　(1)给定查询

　　(2)stem查询，算法同文档处理

　　(3)使用索引号而不是词干

　　(4)计算查询词干的权重

　　(5)表单查询向量 (VSM)

　　(6)计算查询向量和文档向量的相似度

　　(7)将排序好的文档集合返回给用户

　　搜索引擎使用的信息检索模型主要有布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。

　　(1)布尔逻辑模型布尔信息检索模型是最简单的信息检索模型。用户使用布尔逻辑关系构造查询公式并提交。搜索引擎根据预先建立的倒排文件确定查询结果. 标准布尔逻辑模型是二元逻辑，可以用逻辑符号（“and”.“or”.“not”）来组织关键词表达式。布尔信息检索模型查全率高，查准率低，这是目前大多数搜索引擎使用的。

　　(2)模糊逻辑模型该模型在查询结果处理中加入模糊逻辑运算，将检索到的数据库文档信息与用户查询需求进行比较，按照相关优先级排列查询结果。模糊逻辑模型可以克服布尔信息检索模型查询结果的无序性，例如查询“search engine”，关键词出现“search engine”次数较多的文档会排在第一位。

　　(3)向量空间模型向量空间模型利用检索项目的向量空间来表示用户的查询需求和数据库文档信息。查询结果按照向量空间的相似度排列。向量空间模型可以方便地生成有效的可以提供相关文档的摘要并对查询结果进行分类，为用户提供准确的信息。

　　（4)概率模型的概率模型，基于贝叶斯概率论原理，利用相关反馈的归纳学习方法得到匹配函数，是一种比较复杂的检索模型。目前，商业信息检索系统主要以布尔模糊逻辑加向量空间模型为主，辅以一些自然语言处理技术，构建自己的检索算法。

　　四、人机界面——查询组合与结果处理技术如何使查询界面更加人性化，符合大多数用户的查询习惯，是一个需要研究的问题。是否能提供自然语言检索，这部分流程实际上会涉及到索引过程中的一些技术，比如分词、自然语言处理等。还有问答搜索引擎。这些都是第三代智能搜索引擎必须解决的问题。此外，搜索引擎的检索结果通常收录大量文件，用户无法一一浏览。搜索引擎通常应根据与查询的相关程度对搜索结果进行排名，最相关的文档通常位于顶部。搜索引擎用于确定相关性的方法包括概率法、定位法、摘要法、分类或聚类法等。还有对用户行为的分析，利用数据挖掘技术对搜索引擎的日志进行分析，得到用户搜索行为模式，是提高搜索引擎个性化和人性化的必要手段。以下是确定搜索网页相关性的最常见和最重要的技术的介绍：利用数据挖掘技术分析搜索引擎的日志，获取用户搜索行为模式，是提高搜索引擎个性化、人性化的必要手段。以下是确定搜索网页相关性的最常见和最重要的技术的介绍：利用数据挖掘技术分析搜索引擎的日志，获取用户搜索行为模式，是提高搜索引擎个性化、人性化的必要手段。以下是确定搜索网页相关性的最常见和最重要的技术的介绍：

　　(1)概率方法概率方法根据关键词在文本中出现的频率来判断文档的相关性。这个方法统计关键词的出现次数，关键词次数越多，文档与查询越相关。

　　(2)定位方法定位方法根据关键词在文本中出现的位置来判断文档的相关性。相信关键词出现在文档中的时间越早，文档的相关程度越高。

　　(3)Summary 方法Summary 方法是指搜索引擎自动为每个文档生成一个摘要，让用户自行判断结果的相关性，以便用户选择。

　　(4)分类或聚类方法分类或聚类方法是指搜索引擎利用分类或聚类技术，将查询结果自动分类为不同的类别。

　　(5)用户反馈法对采集到的用户反馈信息进行分析，实际上是一个自适应的过程。通过对检索行为模型的反复验证，客户体验的满意度会越来越高。

0

2022-02-12

搜索引擎主题模型优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎主题模型优化(搜索引擎分为索引器-信息索引就是技术信息过滤信息)

0 个评论

发起人