解决方案:电商运营之站内搜索全面指南(五)
优采云 发布时间: 2022-11-17 00:26解决方案:电商运营之站内搜索全面指南(五)
上一章给大家讲了搜索结果页优化的原则,或者说我个人的看法。搜索结果页面的流量和转换。优化了各模块的运行方式和指标。那么本章我们就来探讨一下站点的搜索过程,用户的搜索词是如何经过,最终成为呈现在我们面前的搜索结果页面的。
为了让大家更容易理解,这里放一张通俗易懂的流程图给大家看一下。有一个大概的脉络,我就根据这个脉络给大家介绍一下。看看图片吧!(为了不那么产品化和容易理解,我简化了很多)
一般来说,干剁过程比较鸡肋,举个例子进去,差不多就明白了。首先声明,我说的不一定对,大家不要盲目跟风。
让我们从中文开始吧,关键词代表“男士印花T恤”
首先,它将进入预处理阶段,这将删除 关键词 中无用的部分,例如停用词。其中“的”就是我们要截掉的部分。其实在预处理阶段会去掉左右两边一些无用的空格,那么如何判断停用词呢?中文中的任何一个词都可能有用,但是在特定的语言环境中,很多词组就变成了停用词,比如淫秽词、极端敏感词(参考广告法)等。
经过预处理环节后,进入智能纠错或人工改写环节。需要判断关键词是否有错别字(算法/人工词库),是否命中人工改写的词库(土豪函数)。
经过这个阶段的处理,就进入了语言识别环节。国内电商也支持英文环境。此时会进行关键词的语言识别,确认该词应该在何种语言环境下进行搜索。有的电商没有这个链接,因为实在没必要。出口型跨境电商企业必备,如速卖通、Shopee、亚马逊等。
这时候就进入了词性修复阶段。词性恢复,顾名思义,就是对英语进行单复数恢复、时态恢复、词干提取等。“的”去掉),整个词就是骨干。
然后进入分词阶段。此时分词系统会对“男士印花T恤”进行分词。一般来说,中文会进行n-gram多粒度分词。分词结果如下:male/shi/print/flower/t/shirt/men/print/T-shirt/men's print/printed T-shirt/men's T-shirt/。
看不懂上面的ngram也没关系,后续专门的算法章节会讲到。对于一些拼音字符,如英语、法语、印尼语等,使用的空格分词方法是根据关键词之间的空格直接从空格切词,比如“women dress”的分词结果.
为什么和中文不一样?其实英语也有多粒度的分词,而中文的分词方法是根据词典中的词的合理组合,但中文与语音语言略有不同。
这里引申一下:语音语言和结构语言在语言意义上有两种完全不同的意义容量和精确度。即词义容量:单个词的语言意义的表达范围;precision:单个词的语言准确描述的范围值,范围值越小,precision值越高。
结构语言起源于象形文字,它用物体的形状来构造文字,不包括文学表达。文字的基本表达内容,需要多个词才能构成完整、准确的意思。单个字的意思含义广泛,缺乏精确性。.
表音语言文字起源于字母拼接,较少的字母组合形成部首,作为语言延伸的基础。通过更少的部首来扩展和获取更多的语义词汇,并以此为层次来扩展词汇分支。从词根变化向外展开,变形越小表示离词根越近,变形越大表示离词根越远
因此,得出一个假设的结论:
中文搜索多粒度分词的分词方法很大程度上是基于中文搜索词的大意义容量,导致准确度不准确。因此,需要用多个词组词来确认被查词的具体含义。
让我们体验一下:
两者的原理大致相同。补充说这些,只是想让大家明白,不同语言之间的分词是有一些区别的,并不是“一招吃遍天下”。
分词后,系统进入同义词扩展环节。分词后使用词典和人工维护的词库扩展关键词。具体的例子,printing 和 printing 是同义词,men 和 boys 和 men 是同义词。然后将这些近义词一起加到分词上,进入匹配的召回链接。
进入匹配和召回阶段,我们先来看这张图。同样,我偷懒,用以前同事的ppt截图作为展示。看他的例子几千年不变的截图我都看腻了。你会看看它。相信你 一看就明白,用的是整词匹配召回。
什么意思?
男款印花T恤的分词结果必须全部匹配同粒度的商品名称或属性描述,才能召回商品,缺一个不匹配。
且多词粒度权重>词粒度权重,即词组匹配优先于词匹配。
当短语不匹配时,再匹配单词。当然,中文配词是没有意义的。一般来说,中文基本匹配词组。(我的一些中文分词例子不是很贴切)
匹配召回完成后,进入“点头”环节,也称为确认商品是“无结果”还是“结果很少”。没有结果代表关键词找不到商品,结果少代表这个关键词 小于等于8个商品,有的电商将最小结果设置为小于4个或12个反正大家都知道这是什么意思。
清点完人头后,进入*敏*感*词*排序阶段,分类排序。
我们把这个链接称为类别预测,把和关键词最相关的类别放在最前面(你需要知道的是,这些类别的产品集合也必须匹配关键词的全词才行)并不意味着所有类别的产品都会放在第一位)。
品类预测一般通过算法进行,辅以人工干预。这个时候过滤项参数(也就是这个分类下的参数)的显示范围也确定了,top分类也会在这个时候确认是否触发显示。
品类预测结束后,开始商品排序,将预测品类与非预测品类分开排序。排序算法有很多种,根据用户行为数据和产品综合评分算法进行排序。而经过Netview渲染后,就是我们看到的搜索结果页面。
你看,保持简单,我们今天开始。
下一章内容预告:站内搜索品类预测综合解析
#专栏作家#
解决方案:电商站内搜索体系搭建(1)
在很多情况下,尤其是在电子商务领域,很少有关于站点搜索的文档或书籍。通用的电子商务搜索规则或构建思路是单独添加的技术秘密。难得一见一二。当然,今天所介绍的内容纯属经验分享,并不涉及某些在日常生活中或书本上都能找到的机密技术。目的是描述如何在电子商务站点中构建搜索系统。
本文将从算法、运营、产品、数据分析等多个方面进行讲解,期间会穿插多种个人方法论(不一定适合你,仅供参考,可以不采纳)。
说到系统搭建,其实类似于建房的过程,工程图-地基-墙体-龙骨-包封-水电布线-(软装+硬装),然后是搜索系统的搭建在车站也遵循类似的过程。首先我们要知道整体的规划,应该从哪些方面开始建设站内的搜索系统,没有一定的规矩,所以我们先从这个规划方案开始,从而拉开整体的序幕施工过程
在规划方面,有几点需要明确:用户的语言类型。当然,国内的电商不需要过多考虑中文以外的其他语言,但是如果是外贸电商,就需要尽可能贴近当地的语言和文化,除了普通英语。标准配置,急需学习的语言比较多,站内搜索领域也不是特别发达。
就语言而言,注音文字和象形文字的分支结构不同。拼音字符由注音字母组成,如英语、俄语、法语、阿拉伯语等,这些语言由于地理环境和文化的不同,同一种语言可能会产生多种版本的方言,就像汉语一样。但中文的好处是不管在哪里,对字的描述都是统一的,所以跟拼音字的不同读音不同,字也会相应不同。所以做好语义归一化或者对不同音形一致的语言做好同义词词典就显得尤为重要。
好了,这些都是题外话,言归正传,我们需要同时进行几个构建搜索系统的过程,但是我们还是用一章来总结一下:
索引工具的选择:目前现有的索引工具平台有两个:solar和es。总体来说es在国内还是比较成熟的。更新索引时,分为增量索引和全量索引。这里就不展开了,具体可以去度娘或者CSDN查一下。干预背景构建:所谓干预背景,是指人为干预搜索结果的工具背景。一般在搜索系统建立初期,介入后台可以完成很多以往算法无法解决的问题,如商品排序、联想词、同义词、词链直达、热点等一系列相关功能搜索、过滤项目干预、类别预测和词减少。索引规则的确认:表示在搜索时,可以搜索到哪些商品符合条件,如关键词和商品标题、分类名称、商品参数属性、标签等。 排序算法的确认:表示索引规则确定了,就是可以搜索到什么样的商品,排序就是将搜索到的商品池通过一定的规则进行排序。目前分为两部分,一部分是large-scale Sorting是类别预测,一部分是small-scale sorting,即预测类别下的排序。我们接下来会针对这两点进行详细的阐述,算法层面涉及到的理论知识也会给大家科普一下。品类建设:所有电子商务公司都有自己的产品分类,我们也称之为类别或列表。搜索也是按照商品的类别和第一层的层级关系进行搜索和检索。好的目录不在于精巧,在于层级结构逻辑清晰,便于用户识别和搜索,也便于搜索引擎遍历和检索。无少结果处理规则:当用户搜索一个关键词时,当没有结果或结果很少时,如何引导用户进一步点击的规则(如用户展示、产品展示等)会在后面的章节中详细的告诉我。好的目录不在于精巧,在于层级结构逻辑清晰,便于用户识别和搜索,也便于搜索引擎遍历和检索。无少结果处理规则:当用户搜索一个关键词时,当没有结果或结果很少时,如何引导用户进一步点击的规则(如用户展示、产品展示等)会在后面的章节中详细的告诉我。好的目录不在于精巧,在于层级结构逻辑清晰,便于用户识别和搜索,也便于搜索引擎遍历和检索。无少结果处理规则:当用户搜索一个关键词时,当没有结果或结果很少时,如何引导用户进一步点击的规则(如用户展示、产品展示等)会在后面的章节中详细的告诉我。
以上就是搭建搜索系统的龙骨。有些点如果描述的很长很详细,处理上也有一些细微的差别。接下来说说“水、电、布线和软硬装修”。
龙骨铺好后,我们需要考虑评估的问题,即用什么来监测搜索的准确性和适用性。这时候我们需要搭建一个搜索数据监控系统,我们称之为数据埋点。搜索的流量导向方式是典型的漏斗状,需要对各个层级、首页、分类、搜索框、搜索结果页、筛选器、详情页、购物车、订单等页面进行综合搜索根据用户正常的搜索习惯。数据埋点可以跟踪用户在使用搜索时的行踪和在详情页的停留时间,添加数据买车或形成订单等。这样就可以全程监控搜索的效果。
词阵:在搜索系统的装饰方面,核心思想是锦上添花,让用户更方便、更准确地找到自己想要的商品。其中联想词称为建议词、热词、历史搜索词、搜索框底纹词或称为Default词,其他坑推荐关键词。这些功能起到了搜索引流的作用,也是简化用户搜索行为、提高便利性的一种方式。它的主要功能是由算法和运算共同控制,以提高其转化率。在整个搜索环节中,需要始终将用户想要的关键词放在触手可及的地方,呈现给消费者,让他们点击进入详情页。
纠错重写:纠错就不多说了。大家都理解,重写就是用户原来输入的关键词a,出于某种原因为了搜索改成了关键词b。在用户不知情的情况下。至于这是什么原因,我就不展开了,我会专门写一篇来说明的。
高级筛选项:当用户搜索关键词时,系统提取并聚合参数产品的信息,然后为消费者提供筛选选项。呈现方式和逻辑多种多样,每个电商都可以从其前端展示中进行选择,猜测接近十个。但它的使用率并不是搜索准确度的指标,有时恰恰相反。
搜索结果页产品卡片呈现方式:一目了然,无需多做解释。不同的产品卡片样式会给消费者不同的认知,所以也是影响点击率的一种方式。
运行规则和算法:这应该是最占篇幅的环节。这里简单介绍一下。搜索操作规则需要在整体搜索框架完成之前制定,并由专门的搜索操作控制。或者商家运营,帮助他们更好的理解站内搜索制作的教程和方法,为后期的付费搜索打下基础。
算法是整体搜索框架搭建完成后不断迭代的动力源泉。它在单词数组的显示和搜索结果的排序中起着重要作用。算法的应用我会引用CSDN相关的文章。做一个科普讲解,尤其是对品类预测和产品精细化个性化排序的一些感悟。
上面说的差不多了,整个搜索的框架草图已经画的差不多了,接下来详细讲解。我会分成多页,一篇一篇的讲,尽量讲。
#专栏作家#