搜索引擎进行信息检索的优化策略方法是非常有学问的
优采云 发布时间: 2021-03-31 01:03搜索引擎进行信息检索的优化策略方法是非常有学问的
搜索引擎进行信息检索的优化策略方法是非常有学问的,什么情况下做什么样的检索策略可以有效利用搜索引擎内的数据,是一个非常复杂的科学问题。本文总结一下检索策略的基本定义和分类要素(时间顺序由近到远):搜索策略可以定义为以整个网站为坐标方向,对某特定网站进行分类或特定检索网站的方法。1.技术架构定义(本文重点要介绍):搜索策略可以分为四种类型:1.网站分类算法(搜索引擎相关算法);2.网站分类以外分类算法(搜索引擎无关算法);3.网站自动分类算法(人工编辑算法);4.网站分类以外分类算法。
2.分类算法的分类(最重要的一个环节):1.按表达方式分为:文档型、图像型、序列型、文本型和原始类型。如:分类算法/检索算法有:逻辑分类法,随机森林,前馈神经网络(递归神经网络,循环神经网络),lda特征提取,检索,排序,检索,rank/等。
2.按网站类型分为:社交型、媒体型、商务型、高频互联网/小众互联网、第三方网站。如:问答型(,分类问答搜索引擎),电子商务型(天猫,电子商务搜索引擎),医疗医药型(,诊断经验网络搜索引擎),硬件生态型(:,安全搜索引擎)等。以本文标题为例,文本分类等问题,可以理解为社交型;工业信息搜索、电子商务搜索,可以理解为媒体型;教育搜索,可以理解为高频互联网。
多数情况下,文档分类是信息分类的一种,在查询特定信息的时候,可以按照词语或网站分类来进行分类。文本分类中的目标网站检索也是其检索策略的一部分。3.按分类器架构分为:全文检索器(如百度,seo等);半文本检索器(如有道等);文本摘要/外链检索器(,,百度等)4.按网站类型分为:内容型(pgc),经济型(csp),互联网新闻搜索和快速搜索型(如,豆瓣、csdn等),网站算法发展五年内出现的算法。
5.按搜索规则分为:基于特征词的算法(如bm25,ffm等)基于共现的算法(如、)基于句法树(gru)的算法,基于时间序列的算法(如,gmm)检索树,算法;积分算法;排序算法等。基于密度的算法,基于utm的算法,基于bcg公式的算法等。在检索计算的时候,要考虑到数据类型,建模问题,检索请求等。
按检索对象,可以分为:文本检索,图像检索,逻辑检索(非结构化文本检索);按方法架构,可以分为:web编辑器(,)检索方法,文本编辑器(word.rule,ansi)检索方。