搜索引擎进行信息检索的优化策略方法(论文在成文之前材料的整理过程中的如下材料整理)

优采云发布时间: 2021-12-31 01:20

　　搜索引擎是指按照一定的策略从互联网上采集信息，并使用特定的计算机程序，对信息进行组织和处理，为用户提供检索服务，并将与用户检索相关的相关信息展示给用户的系统。当用户在搜索框中输入关键字时，我们应该返回给用户什么？

　　一、搜索引擎原理和用户习惯

　　1.1 搜索引擎是一个所有人都可以搜索的数据库

　　图1：搜索引擎简单的人机交互流程

　　在：

　　1）搜索到的数据库是搜索引擎抓取的网页数据。

　　原创数据被蜘蛛爬取后，搜索引擎会在进入数据库之前对其进行处理。也就是搜索引擎的搜索算法，比如谷歌的PageRank，名字众所周知（当然，内容原则是绝密）。

　　2）搜索引擎是高度简化的产品。

　　用户所需要做的就是输入他们想要检索的关键词，确认并查看结果。这里要注意的一件事是用户甚至不需要输入搜索词。对于搜索引擎来说，不仅需要在海量数据中快速找到相关结果，更需要猜测用户的期望，提取正确的内容给用户。内部机制已经不能用繁琐来形容了。

　　这种困难就像在大量书籍中快速准确地找到一个未知问题的答案。

　　图2：中国国家图书馆刚刚拍摄，使用滤镜。

　　1.2 搜索引擎数据处理流程

　　搜索引擎是一个超级复杂的系统，具体的内部处理规则和技术原理无法简单阐述。我们可以通过产品思维来理解这个过程。以写论文为例，分析一下。写论文前整理资料的过程大致如下：

　　1) 从互联网、图书馆、书籍、杂志、讲座等采集大量原创资料。

　　2) 排除相关重复内容

　　3)排除与主题无关的内容

　　4) 根据主题、逻辑顺序、优先级等，进行人工计算、分析、排版、处理等。这个过程最为繁琐耗时，使用的武器是史上最强大的工具：人脑！！！

　　5) 书面输入结果

　　忍不住重申：所有的产品其实都是在模仿人类的实际社会活动。. . 了解这一点对于产品经理来说非常重要。

　　搜索引擎数据处理过程基本类似（想了解的可以自行搜索相关资料），唯一不同的是搜索引擎要消除：

　　一种是人脑通过情感和逻辑进行分析，另一种是机器按照一定的规则进行分析。

　　因此，如果您想要更准确的搜索结果，请让它像人脑一样分析输入数据并输入结果。

　　嗯，我觉得不太现实，但是你可以想办法让他更精确。

　　二、如何获取信息

　　我们还是从日常行为入手，再推导出产品的运营模式。

　　2.1 通常，我们从周围环境中获取信息如下：

　　1、已知的获取方式和方法

　　如果你想知道今天美元对*敏*感*词*的汇率，或者北京到青岛的机票价格和时刻表，因为航线是已知的，你只需要根据地图找到这些信息。不同之处在于不同方法的成本。汇率可以通过网络查询、电话咨询、银行分行查询等方式进行，显然第一种方法更方便。（确实是废话）。

　　信息规范化，概念清晰。

　　2、了解需要整理的核心关键

　　比如刚才提到的essay写作中，如果题目是弱关系社区设计，我们需要问什么是弱关系，和强关系有什么区别，现有的设计案例有哪些。

　　这些信息的获取是以人为分析为前提的。

　　2.2 如何提问

　　让我举两个例子。

　　1、在形成完整的序言逻辑之前，孩子们最简单的提问方式是关键词。大人要做的，就是通过他的胡言乱语，了解孩子们的需求。一般来说，成年人能够准确预测是因为他们对孩子的习惯、行为、方法、特点等有很好的了解。

　　2、有了完整的语言逻辑，我们一般选择直接问：今天的汇率是多少？从北京到青岛的票价是多少，现在几点？人脑也可以*敏*感*词*生问你觉得现在的房价怎么样。它的字面意思是房价，也可能意味着你有能力买房。

　　2.3 搜索引擎应该这样做

　　假设搜索引擎的大脑和我们一样，那么他们处理问题的方式应该是这样的：

　　1、分析查询的问题是检索关键词还是询问

　　2、结果分为三种，

　　答案已知，结果直接输出；

　　路径已知，输入解路径；

　　为用户选择提供最符合用户期望的排名结果

　　3、在不同的情况下，会有相互的组合。当搜索引擎对关键词的理解更充分时，结果也更准确。

　　三、改进方法和策略

　　总结用户的操作行为：

　　3.1 当用户输入为关键词时：

　　1) 了解用户的特征，并根据其特征对搜索结果进行排序

　　2)未知的用户特征被视为普通查询。为搜索结果提供结构化的词，即相关的提示。相关性越高，结果就越高。

　　3.2 当用户提问时：

　　1)分析问题的语义，简单的语义输出结果或方式

　　2) 无法准确分析语义，向用户提供多种结果，并根据用户反馈不断调整结果。这也是用户特征的一部分。

　　3.3 当搜索结果交叉时，还是需要参考用户的行为特征对结果进行排序。

　　有几个名词，有兴趣的可以再搜索一下：百度盒子计算；谷歌知识图谱；Facebook-社交图搜索；Siri 语义搜索；概率-马尔可夫模型。

　　说白了就是

　　搜索引擎了解用户搜索意图的次数越多，数据库就越完整，输出的结果也就越准确。

　　我举个例子来证明：同样的问题，好朋友通常比陌生人回答得好，因为好朋友知道动机、背景甚至你期望得到的答案。

　　问题在于，计算机毕竟不是生物，它们只是在执行规则。可以做的是采集你的一些行为和特征来推断你的偏好：

　　1、个人信息：姓名、性别、家乡、职业、行业、爱好、喜好等。

　　2、个人行为：搜索历史、浏览历史、社交行为等。

　　3、处理方式：聚类、分类、数据挖掘

0

2021-12-31

搜索引擎进行信息检索的优化策略方法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎进行信息检索的优化策略方法(论文在成文之前材料的整理过程中的如下材料整理)

0 个评论

发起人