搜索引擎（英语：searchengine）的扩展资料及方法

优采云发布时间: 2021-07-24 01:06

　　搜索引擎（英文：search engine）是一种信息检索系统，旨在协助搜索存储在计算机系统中的信息。搜索结果一般称为“命中”，通常以表格的形式列出。网络搜索引擎是最常见、最公开的搜索引擎，其功能是搜索存储在万维网上的信息。

　　搜索引擎为一组项目提供了一个界面，允许用户指定感兴趣的项目的标准并让搜索引擎找到匹配的项目。这些条件称为搜索查询。在文本搜索引擎的情况下，搜索查询通常表示为一组词，用于标识一个或多个文档可能收录的所需概念。

　　有多种风格的搜索查询语法，它们的严格程度各不相同。它还可以在以前站点的搜索引擎中搜索名称。一些文本搜索引擎要求用户输入两三个用空格隔开的词，而其他搜索引擎可以让用户指定整个文档、图片、声音和各种形式的自然语言。

　　某些搜索引擎改进了搜索查询，以通过称为查询扩展的过程增加提供优质集合的可能性。查询理解方法可用于标准化查询语言。

　　扩展信息：

　　一个完整的搜索引擎需要有五个部分：网络爬虫和收录、索引、查询分析、搜索排名和推荐系统。

　　1、Web 抓取和收录。

　　网页抓取技术是网页抓取的核心技术。您可以通过编写某些程序或脚本来捕获 Internet 上的信息。网页抓取完成后，必须构建相应的数据库来存储我们抓取到的网页信息。

　　但是，网上的信息是多余的。主要原因是网站大佬会在后台爬行。他们也会用爬虫去检测一些热点内容或者文章，然后爬取他们的信息并重新组织格式，但其实网页的内容几乎是一样的。

　　所以在收录爬虫爬取的网页信息之前，我们要添加一个关键链接——网页去重，以保证网页在我们数据库中的唯一性。

　　2、创建索引

　　抓取网页信息后，需要对网页信息进行分析，提取网页的主题内容和类别信息。涉及的主要技术是文本识别和文本分类技术。

　　网页解析的输出往往是一些结构化的信息（每个网页的完整性不同，需要统一结构化数据）。一般结构化信息包括网页的URL、网页编码、页面标题、作者、生成时间、类别信息、摘要等。

　　获取网页的结构化信息后，需要构建相应的索引。为了加快对用户查询的响应，网页内容通过一种称为“倒排索引”的高效查询数据结构进行保存，同时也保存了网页之间的链接关系。

　　之所以需要保存链接关系，是因为这个关系在网络的相关性排名阶段是可用的。通过“链接分析”，可以判断页面的相对重要性，这对于为用户提供准确的搜索结果非常有帮助。大。

　　由于互联网上海量的网页信息，搜索引擎的建设离不开大数据处理平台和云计算技术。目前比较常用的大数据处理平台是Hadoop生态系统。

　　3、Query 词分析。

　　查询词分析是查询分析或查询聚类。搜索引擎收到用户的查询后，首先需要对查询进行分析，希望能结合查询和用户信息，正确推断出用户的真实搜索意图。

　　比如用户输入查询词“养水仙”，除了基本的内容匹配，搜索引擎还需要了解用户。其实，用户的查询词也可以理解为“水仙养的方法”、“水仙好养”等类似查询词。

<p>在此之后，首先查看缓存。搜索引擎的缓存系统存储了不同查询意图对应的搜索结果。如果可以在缓存系统中找到满足用户需求的信息，就可以直接将搜索结果返回给用户，这样既节省了重复计算的资源消耗，又加快了响应速度。

0

2021-07-24

seo(搜索引擎优化)名词解释

0 个评论

要回复文章请先登录或注册