北京茵歌搜索引擎优化机构(搜索迎亲相似query挖掘方法有多种-可先简单参考Wikipedia)

优采云发布时间: 2022-03-30 10:23

　　我们先解释一下题目中提到的几个场景：

　　1. 搜索查询分词，腾讯新闻中心的PageRank值最高，所以命中。如果主题不知道PageRank，你可以简单地参考维基百科。

　　2. 类似于查询挖掘，方法很多

　　- 使用互信息、word2vec 等挖掘相似查询，所有这些都是基于一个假设：如果两个查询具有相同的上下文，则它们是相似的。例如，如果“机械键盘”、“程序员”和“耳机”在语料库中同时出现 1000 次，而“机械键盘”、“码农”和“耳机”又出现了 1000 次，那么我们考虑“程序员”类似于“代码农夫”

　　- 基于用户点击，如同一查询下点击相似的页面标题

　　- 还有基于语义视角的Sentence Embedding等。

　　3. 更正，标题给出的例子比较简单，是同拼音下最流行的查询。如果稍微复杂一点，例如：“如何搜索应琴匹配牧民”，一般的做法是为每个字提供一些候选字，候选字通过同音字、近音筛选出来，形状相似度等，比如“英琴”的候选集是（英琴，引擎，视频，hidden，英琴，...），然后转化为HMM求解过程。

　　如果不限于以上特殊情况，那么1对应搜索排序的问题，2、3对应搜索查询重写的问题。从主题的描述来看，似乎后者更有趣，我这里主要讲查询重写。

　　查询重写

　　查询重写，即Query Rewrite，主要解决用户搜索Query与搜索文档不明确匹配的问题。

　　主要包括以下几个方面：

　　- 类似查询：《冰与火之歌》和《权力的游戏》

　　- 动态失词：大多数情况下，“de”这个词是无效的，但是“University in Beijing”中的“de”不能被丢弃，因为“University in Beijing”和“Peking University”的含义明显不同

　　- 意图预测：搜索“苍老师”时，是要搜索“苍老师的微博”还是“苍老师的电影”？

　　- 跨媒体查询：搜索“鲜花jpg”直接获取你想要的图片素材，而不是介绍鲜花的百科全书

　　- 相关搜索：“知乎”和“黄继新”和“中国UGC社区”

　　- 自动纠错：“搜索迎前牧民匹配”->“搜索引擎模糊匹配”

　　主要解决方案是：

　　- 基于公共互联网语料库的文本挖掘

　　- 基于用户搜索和点击日志的挖掘

　　- 基于语义信息的文本语义理解

　　本回答如有错误或不同意见，请指出。

0

2022-03-30

北京茵歌搜索引擎优化机构

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

北京茵歌搜索引擎优化机构(搜索迎亲相似query挖掘方法有多种-可先简单参考Wikipedia)

0 个评论

发起人