北京茵歌搜索引擎优化机构(搜索迎亲相似query挖掘方法有多种-可先简单参考Wikipedia)
优采云 发布时间: 2022-03-30 10:23北京茵歌搜索引擎优化机构(搜索迎亲相似query挖掘方法有多种-可先简单参考Wikipedia)
我们先解释一下题目中提到的几个场景:
1. 搜索查询分词,腾讯新闻中心的PageRank值最高,所以命中。如果主题不知道PageRank,你可以简单地参考维基百科。
2. 类似于查询挖掘,方法很多
- 使用互信息、word2vec 等挖掘相似查询,所有这些都是基于一个假设:如果两个查询具有相同的上下文,则它们是相似的。例如,如果“机械键盘”、“程序员”和“耳机”在语料库中同时出现 1000 次,而“机械键盘”、“码农”和“耳机”又出现了 1000 次,那么我们考虑“程序员”类似于“代码农夫”
- 基于用户点击,如同一查询下点击相似的页面标题
- 还有基于语义视角的Sentence Embedding等。
3. 更正,标题给出的例子比较简单,是同拼音下最流行的查询。如果稍微复杂一点,例如:“如何搜索应琴匹配牧民”,一般的做法是为每个字提供一些候选字,候选字通过同音字、近音筛选出来,形状相似度等,比如“英琴”的候选集是(英琴,引擎,视频,hidden,英琴,...),然后转化为HMM求解过程。
如果不限于以上特殊情况,那么1对应搜索排序的问题,2、3对应搜索查询重写的问题。从主题的描述来看,似乎后者更有趣,我这里主要讲查询重写。
查询重写
查询重写,即Query Rewrite,主要解决用户搜索Query与搜索文档不明确匹配的问题。
主要包括以下几个方面:
- 类似查询:《冰与火之歌》和《权力的游戏》
- 动态失词:大多数情况下,“de”这个词是无效的,但是“University in Beijing”中的“de”不能被丢弃,因为“University in Beijing”和“Peking University”的含义明显不同
- 意图预测:搜索“苍老师”时,是要搜索“苍老师的微博”还是“苍老师的电影”?
- 跨媒体查询:搜索“鲜花jpg”直接获取你想要的图片素材,而不是介绍鲜花的百科全书
- 相关搜索:“知乎”和“黄继新”和“中国UGC社区”
- 自动纠错:“搜索迎前牧民匹配”->“搜索引擎模糊匹配”
主要解决方案是:
- 基于公共互联网语料库的文本挖掘
- 基于用户搜索和点击日志的挖掘
- 基于语义信息的文本语义理解
本回答如有错误或不同意见,请指出。