搜索引擎进行信息检索的优化策略方法(论文在成文之前材料的整理过程中的如下材料整理)
优采云 发布时间: 2021-12-31 01:20搜索引擎进行信息检索的优化策略方法(论文在成文之前材料的整理过程中的如下材料整理)
搜索引擎是指按照一定的策略从互联网上采集信息,并使用特定的计算机程序,对信息进行组织和处理,为用户提供检索服务,并将与用户检索相关的相关信息展示给用户的系统。当用户在搜索框中输入关键字时,我们应该返回给用户什么?
一、搜索引擎原理和用户习惯
1.1 搜索引擎是一个所有人都可以搜索的数据库
图1:搜索引擎简单的人机交互流程
在:
1) 搜索到的数据库是搜索引擎抓取的网页数据。
原创数据被蜘蛛爬取后,搜索引擎会在进入数据库之前对其进行处理。也就是搜索引擎的搜索算法,比如谷歌的PageRank,名字众所周知(当然,内容原则是绝密)。
2)搜索引擎是高度简化的产品。
用户所需要做的就是输入他们想要检索的关键词,确认并查看结果。这里要注意的一件事是用户甚至不需要输入搜索词。对于搜索引擎来说,不仅需要在海量数据中快速找到相关结果,更需要猜测用户的期望,提取正确的内容给用户。内部机制已经不能用繁琐来形容了。
这种困难就像在大量书籍中快速准确地找到一个未知问题的答案。
图2:中国国家图书馆刚刚拍摄,使用滤镜。
1.2 搜索引擎数据处理流程
搜索引擎是一个超级复杂的系统,具体的内部处理规则和技术原理无法简单阐述。我们可以通过产品思维来理解这个过程。以写论文为例,分析一下。写论文前整理资料的过程大致如下:
1) 从互联网、图书馆、书籍、杂志、讲座等采集大量原创资料。
2) 排除相关重复内容
3)排除与主题无关的内容
4) 根据主题、逻辑顺序、优先级等,进行人工计算、分析、排版、处理等。这个过程最为繁琐耗时,使用的武器是史上最强大的工具:人脑!!!
5) 书面输入结果
忍不住重申:所有的产品其实都是在模仿人类的实际社会活动。. . 了解这一点对于产品经理来说非常重要。
搜索引擎数据处理过程基本类似(想了解的可以自行搜索相关资料),唯一不同的是搜索引擎要消除:
一种是人脑通过情感和逻辑进行分析,另一种是机器按照一定的规则进行分析。
因此,如果您想要更准确的搜索结果,请让它像人脑一样分析输入数据并输入结果。
嗯,我觉得不太现实,但是你可以想办法让他更精确。
二、如何获取信息
我们还是从日常行为入手,再推导出产品的运营模式。
2.1 通常,我们从周围环境中获取信息如下:
1、 已知的获取方式和方法
如果你想知道今天美元对*敏*感*词*的汇率,或者北京到青岛的机票价格和时刻表,因为航线是已知的,你只需要根据地图找到这些信息。不同之处在于不同方法的成本。汇率可以通过网络查询、电话咨询、银行分行查询等方式进行,显然第一种方法更方便。(确实是废话)。
信息规范化,概念清晰。
2、了解需要整理的核心关键
比如刚才提到的essay写作中,如果题目是弱关系社区设计,我们需要问什么是弱关系,和强关系有什么区别,现有的设计案例有哪些。
这些信息的获取是以人为分析为前提的。
2.2 如何提问
让我举两个例子。
1、 在形成完整的序言逻辑之前,孩子们最简单的提问方式是关键词。大人要做的,就是通过他的胡言乱语,了解孩子们的需求。一般来说,成年人能够准确预测是因为他们对孩子的习惯、行为、方法、特点等有很好的了解。
2、 有了完整的语言逻辑,我们一般选择直接问:今天的汇率是多少?从北京到青岛的票价是多少,现在几点?人脑也可以*敏*感*词*生问你觉得现在的房价怎么样。它的字面意思是房价,也可能意味着你有能力买房。
2.3 搜索引擎应该这样做
假设搜索引擎的大脑和我们一样,那么他们处理问题的方式应该是这样的:
1、分析查询的问题是检索关键词还是询问
2、 结果分为三种,
答案已知,结果直接输出;
路径已知,输入解路径;
为用户选择提供最符合用户期望的排名结果
3、 在不同的情况下,会有相互的组合。当搜索引擎对关键词的理解更充分时,结果也更准确。
三、改进方法和策略
总结用户的操作行为:
3.1 当用户输入为关键词时:
1) 了解用户的特征,并根据其特征对搜索结果进行排序
2)未知的用户特征被视为普通查询。为搜索结果提供结构化的词,即相关的提示。相关性越高,结果就越高。
3.2 当用户提问时:
1)分析问题的语义,简单的语义输出结果或方式
2) 无法准确分析语义,向用户提供多种结果,并根据用户反馈不断调整结果。这也是用户特征的一部分。
3.3 当搜索结果交叉时,还是需要参考用户的行为特征对结果进行排序。
有几个名词,有兴趣的可以再搜索一下:百度盒子计算;谷歌知识图谱;Facebook-社交图搜索;Siri 语义搜索;概率-马尔可夫模型。
说白了就是
搜索引擎了解用户搜索意图的次数越多,数据库就越完整,输出的结果也就越准确。
我举个例子来证明:同样的问题,好朋友通常比陌生人回答得好,因为好朋友知道动机、背景甚至你期望得到的答案。
问题在于,计算机毕竟不是生物,它们只是在执行规则。可以做的是采集你的一些行为和特征来推断你的偏好:
1、个人信息:姓名、性别、家乡、职业、行业、爱好、喜好等。
2、个人行为:搜索历史、浏览历史、社交行为等。
3、 处理方式:聚类、分类、数据挖掘