搜索引擎优化宝典 pdf(基于分词与词性标注的解析方法对搜索语句进行分词结构)
优采云 发布时间: 2022-04-11 21:00搜索引擎优化宝典 pdf(基于分词与词性标注的解析方法对搜索语句进行分词结构)
具体方法是:
在搜索引擎搜索语句的场景下,从搜索引擎广告平台获得的用户搜索语句将与产品落地页一一对应。因此,最好直接根据广告登陆页面的相关实体信息构建命名实体识别规则。该效果还避免了在构建训练集上花费大量精力。
(2)基于分词和词性标注的分析方法
对搜索句子进行分词和词性标注,得到搜索句子的词性结构。
例子:
具体方法是:基于字典的分词和词性标注。
2.3 关键词生成模块
该模块主要执行关键词的生成。从商品供应模块中提取需要投放的商品,根据关键词生成的一定规则从关键词生成规则模块中提取对应的规则,匹配对应的商品落地页和广告物质信息。
关键词生成后,由于生成的关键词的用户意图仍然可能指向多个供应产品,所以生成的关键词会被判断为歧义,被过滤掉。其中有一个模棱两可的 关键词。
具体的消歧方法是:
(1) 基于字符串匹配
如果不同的产品生成相同的关键词或者关键词存在于不同的产品名称中,那么这个关键词会被过滤掉。
(2)基于搜索点击数据的分发结果
如果一个关键词,在搜索点击数据中,发现点击分布在多个搜索结果上,那么这个关键词会被过滤掉。
(3)基于搜索点击数据构建语义匹配模型
如果 关键词 与多个产品具有足够高的语义匹配分数,则此 关键词 将被过滤。这里我们采用 DSSM 模型。DSSM是2013年推出的query/doc相似度计算模型,广泛应用于广告召回和排名场景。DSSM的核心思想是将不同的物体映射到一个统一的语义空间中,并利用这个空间中物体的距离来计算相似度。
三、情报
智能搜索词是指从用户住宿搜索语句中自动挖掘出可用于广告投放的搜索语句,并匹配相应的产品和广告登陆页面以生成新的广告关键词。该场景可视为用户意图识别场景,即可以识别出采集到的用户搜索语句的搜索意图,并与广告主提供的产品或服务进行匹配,从而构建搜索广告关键词。
从OTA的角度来看,无论是公司内部网页或APP端采集的用户搜索语句,还是搜索引擎广告平台获取的用户搜索语句,都是旅游领域(旅游领域)的用户搜索行为。用户意图)。
因此,本项目对此类旅游领域的搜索意图大致分为以下四类搜索意图和12个搜索意图子类:
下面介绍酒店搜索中词搜索智能的实现框架:
下面我们来一一了解模块A(住宿相关与否)和模块B(酒店住宿意向识别)的内部细节。
1)模块A(判断住宿是否相关)
我们将此问题视为文本二进制分类场景,并基于Bert预训练和微调构建分类模型。Bert是2018年提出的NLP预训练模型。Bert的预训练过程可以学习到强大的语义表示能力。同时,谷歌发布了中文预训练模型,可以让我们使用有限的样本进行微调。有些场景取得了不错的效果。
对于具体的训练集,我们使用基于OTA平台的搜索点击数据。如果搜索语句有很高的概率点击与住宿相关的搜索结果,则生成与住宿相关的搜索语句的正样本。相应地,如果搜索语句以高概率点击非住宿相关搜索结果,则生成非住宿相关搜索语句的正样本。搜索归类为住宿相关且概率大于某个阈值的句子将进入住宿意图识别模块。
2)模块B(酒店住宿意向识别)
我们将此问题视为语义匹配场景。传统的语义匹配场景包括查询-查询相似度算法和查询-文档相似度算法。在这里,我们可以将它们视为查询产品相似度算法。
具体数据集如下:
如果一个关键词,在搜索点击数据中,发现点击某个搜索结果(旅游产品)的概率很高,那么关键词将在语义上定义为指向这个产品。相反,这意味着这个关键词 并不指向这个产品。
产品的别名被认为在语义上与产品的正式名称一致。
但是由于OTA搜索终端和搜索引擎搜索终端的不同,用户的搜索习惯也会有很大的不同。例如,搜索引擎端的搜索语句的长度通常比OTA搜索端的要长得多,也复杂得多。例如,在搜索引擎端,用户可能会搜索“静安寺携程住宿券”,但在OTA搜索端,很难看到有这种搜索行为的用户。因此,我们构造了一些查询重写的同义重写方法,使训练集更贴合真实场景。
语义匹配采用的解决方案是基于 DSSM+BERT 微调。之所以使用DSSM+BERT的组合,是因为Bert的语义匹配准确率更高,而DSSM的语义匹配性能更好。DSSM可以离线计算产品的向量表示,可以实现快速粗略的语义匹配召回。因此,设计基于DSSM进行语义召回,然后使用Bert对召回结果进行一一匹配,从而在保证方案性能的同时提高匹配准确率。
四、其他方法
除了以上两种方法,我们还探索尝试了其他智能生成广告的思路关键词,下面简单介绍一下:
4.1 个广告 关键词 根据查询建议生成
当我们在搜索引擎中搜索时,搜索引擎通常会在下拉框或搜索结果页面中向我们推荐一些查询建议。
通过研究搜索引擎搜索关联的一些方法,我们可以知道搜索关联背后的算法通常会考虑:
(1)人气:此搜索结果与更多搜索相关联
(2)Relevence:这个搜索关联的结果在语义上与原创搜索相关
(3)多样性:在Relevence的基础上,搜索关联会尽量考虑更多样化的关联结果,给用户更好的搜索体验。
流行度和相关性的属性表明搜索关联结果是搜索广告的良好来源关键词,因为搜索关联结果通常具有更高的流量和更高的语义相似度。多样性的特点有优点也有缺点。好在多元化可以带来更多样化和长尾的流量(长尾流量通常更便宜,所以ROI更高),但多元化也可能带来不可控的流量。劣质交通。
4.2 基于同义重写广告生成关键词
对于一些表现优秀的广告关键词,可以重写同义词,得到更多类似的优质广告关键词。具体方法可以包括:
(1)基于用户搜索查询重写的查询重写方法)
(2)点击基于用户搜索的Graph Approach)
(3)基于同义语法替换的同义重写
五、总结
以上介绍了我们SEM搜索引擎广告关键词智能生成的几种方法,主要介绍了两种传统关键词生成方法的智能思想。
未来的规划和展望可能有两个主要方向:
(1)从中文、英文、日文、韩文到更小语种:现在主要做中文、英文、日文、韩文广告相关的工作关键词,也做了一些工作关于小语种广告关键词未来会朝着这个方向拓展探索和发展。
(2)从人类理解到机器理解:当前方法生成的大部分关键词都是人类可以理解的,比如分词、词性标注等,都可以从从人类的角度来看,但是基于机器理解的尝试并不多,在SEM的框架下,所有的程序都在运行,所以在某些情况下,语法无法解释的关键词可能会表现得更好。这可能是一种可能思考方向。