建立索引数据库的工作原理(1)_光明网
优采云 发布时间: 2021-05-02 07:17建立索引数据库的工作原理(1)_光明网
搜索引擎的工作原理(1)搜索引擎的组成从技术角度来看,搜索引擎基本上由三部分组成:第一部分是蜘蛛软件(Spider),这是一个自动采集程序。 ,其作用是采集网页的内容;第二部分是Indexer,其功能是分析采集的内容然后进行索引;第三部分是Searcher,它响应用户的搜索请求。 / zmeigou / com当用户输入关键字时,搜索者使用此关键字来匹配已建立的索引器,匹配后按相关性进行排序,然后将排序后的结果发送给用户。[2)搜索引擎的工作过程是通常,搜索引擎通过某个界面(例如动态网页)与用户互动,接受用户对特定信息的请求,然后分析用户的查询请求,例如将查询请求分解为几个关键字奥兹。对用户请求进行分析后,在数据库中连续进行索引数据库匹配,选择符合条件的信息,同时根据匹配程度对结果进行排序,最后将排序后的结果返回给用户。由于网络信息一直在变化,因此搜索引擎在后台通过蜘蛛程序在Internet上漫游。采集网络信息,自动分析采集到的信息,并将采集到的信息按照一定格式保存在本地索引数据库中。
因此,为了完成搜索任务,搜索引擎必须完成三个方面的工作:建立索引数据库,分析和匹配用户查询,处理并提供查询结果。 ①建立索引数据库。蜘蛛程序用于构建索引数据库。初始化时,爬虫程序通常指向URL池(用于在Internet上存储网站地址,并且其大小与可以搜索的搜索引擎的范围有关)。在遍历Internet的过程中,根据深度优先,广度优先或其他算法,从URL池中提取几个URL进行处理,并将以后要访问的URL放入URL池中,处理完成,直到URL池为空。 Web文档的索引基于文档的标题,第一段甚至整个页面的内容,这取决于搜索服务的数据采集策略。在漫游过程中,蜘蛛程序根据页面的标题,标题,链接等生成摘要,并将其存储在索引数据库中。如果是全文搜索,则还需要将整个页面的内容保存到本地数据库,例如google的网络快照功能。 ②处理信息。搜索到的信息需要经过几个阶段的处理,例如信息预处理和信息索引。一种。信息预处理。信息预处理包括两个不同级别的信息格式转换和过滤。作为访问不同信息的组织,网关可以访问不同组织形式的数据信息,例如各种数据库,不同文件系统和网络网页。
同时,信息预处理还可以过滤不同格式的文档。例如Microsoft Word,WPS,Text和HTMI等。这使搜索引擎不仅可以检索文本文档,还可以检索原创格式的文档信息。 b信息索引。信息索引是创建文档信息的特征记录。它使用户可以轻松检索所需的信息。索引需要以下处理。 ·信息分词和词形态分析单词是信息表达的最小单位,中文与西方语言的不同之处在于句子中单词之间没有分隔符(空格)。这需要分词。中文分词有不同的含义。例如,句子“研究所有问题”可以分为“研究/所有/问题”或“研究/问题”。因此,有必要使用各种上下文知识来解决单词的不同含义。另外,有必要对词进行形态分析以识别每个词的词干,从而基于词干建立信息索引。 ·进行词性标注和相关的自然语言处理在分割的基础上,使用基于规则和统计的方法(马尔可夫链)进行词性标注。事实证明,基于马尔可夫链的n元语法统计分析方法在词性标注中具有较高的准确性。在此基础上,必须使用各种语法规则来识别重要的短语结构。
·建立搜索项目的索引通常,使用反向文件来建立搜索项目的相关信息。相关信息通常包括“搜索项”(表中的TERM),“搜索项所在文件的位置信息”(表中的DOC)和“搜索项的权重”(表中的WT)。例如,搜索词“计算机”的位置信息是“文档D中第n段的第m句中的单词w”。以这种方式,当搜索信息时,用户可以请求搜索词T1和搜索词T2在查询中处于相同的句子或相同的段落中。检索项目索引的建立标准是为了促进文档信息的更新处理。 ③执行查询扩展处理。信息检索评价的标准是信息检索的查全率和准确率。查全率和精确度的概念将在下一部分中介绍。为了提高召回率,需要查询扩展处理。该处理基于同义词词典和语义暗示词典来扩展查询搜索项。同义词扩展,例如“计算机”和“计算机”是指相同的概念。因此,查询“计算机”也需要查询“计算机”,反之亦然。主题收录扩展不仅意味着查询搜索词,还意味着查询其中收录的子概念。例如,主题术语“艺术”包括“电影”,“舞蹈”,“绘画”等。 “电影”还包括“专题片”,“纪录片”等。 Mogujie主页www / zmeigou / com因此,查询“艺术”肯定收录“电影”,“舞蹈”,“绘画”及其子概念。
提高信息检索的准确性,并使用向量空间模型来实现相关的查询反馈处理。即,用户从初始查询的结果中选择具有重要内容的文档或文档片段,并允许搜索引擎根据所选文档的特征再次执行查询,从而提高了查询的准确性。 ④分类和汇总信息。为了方便用户从查询结果中选择所需的信息,搜索引擎可以根据文档内容对提供给用户的文档信息进行分类,并为每个文档生成简短的摘要。搜索引擎根据文本检索项目的统计特征对查询结果进行分类和汇总。例如,如果用户查询检索项目“计算机”,则对应的结果分类可以是分类1:网络,系统,路由器等;分类2:市场,产品,销售等;可能还有其他分类。分类的目的是为了方便用户查找相关信息。 ⑤显示查询结果。根据用户的查询要求,搜索引擎从数据库中检索相关信息并将其显示在浏览器上。