搜索引擎主题模型优化(【T·每日一题】2016年10月21日)
优采云 发布时间: 2022-04-20 17:07搜索引擎主题模型优化(【T·每日一题】2016年10月21日)
作者:张帆(自然语言处理组@搜狗)
通用搜索与垂直搜索
通用搜索功能:
爬取互联网上所有有价值的页面,同意建立索引,以关键词匹配为基本检索方式,以网页标题和摘要为呈现方式
谷歌、百度、搜狗、搜搜、有道
垂直搜索功能:
以特定类别为主题,只抓取与主题相关的信息,并根据主题的特点建立相应的索引检索方法、筛选方法和呈现方法
机票搜索、地图搜索、购物搜索(一次购物)...
解决方案:通用搜索引擎+垂直搜索引擎
意图识别
意图搜索的难点:
不规则输入
多样化的输入法
非常不规则
堆叠关键词
自然语言查询
甚至非标准的自然语言
多重意图
如:仙剑奇侠传
游戏?--> 游戏软件?...
电视剧?--> 电视剧下载?相关新闻?...
电影?--> 电影下载?看影评?概要?...
音乐?--> 歌曲下载?在线听音乐?歌词下载?...
小说?--> 小说下载?在线观看?...
意图的强度
如:荷塘月光
荷塘月光歌 --> 歌曲下载:50%
莲池月光社区 --> 房产需求:20%
荷塘月光蔬菜 --> 配方要求:10%
结果的可靠性
这些为我们获取搜索结果的垂直网站往往都是中小型网站,我们需要保证搜索结果的准确性和相关性
如:遥控车
预期结果:返回所有遥控车的相关结果
实际返回:
遥控车 --> 遥控车没有结果
遥控-->返回遥控,遥控平面等于结果与本意无关
car --> 返回汽车型号,汽车零件等于原意无关结果
(例如,京东这样拆分搜索词)
时效性
例如:iPhone 5 7 月 1 日开售
6 月 30 日的查询意图:新闻 90%,维基百科 10%
7 月 1 日的查询意图:新闻 70%,购买 25%,维基百科 5%
8月1日查询意向:购买50%,信息40%,其他10%
5 年后的查询意图:维基百科 100%
详尽词汇法:
最简单直接的方法是通过词汇表的直接匹配来获得查询意图。也可以添加到适合更简单、更集中查询的类别,如电视节目查询、节假日查询、餐厅查询等。
例如:北京的天气怎么样?
(停用词替换)--> [北京][天气][怎么样]
(查询词属于一) --> {city][关键词][查询词]
(顺序无关)--> {[city], [关键词], [question word]}
给定一个白名单:
规则解析方法:
适用于一些查询不集中但非常符合规则的品类,通过规则解析查询进行意图识别和关键信息提取,如汇率查询、计算器、度量衡等。
如:236.2块钱可以兑换多少*敏*感*词*?
[236.2] [今天] [*敏*感*词*]可以兑换多少[美元]?
[数字][货币单位][日期]可以兑换多少[货币单位]?
★通过知识图谱替换/对应/规范化
解析:
数量:236.2
来源货币:美元(不再是“美元”)
目的货币:*敏*感*词*
★通过自己建立的一些语言模型,可以更好的解决召回率低的问题
如果模型训练好,相对召回率也很好
但是比如购物等,是不可能做这种信息模型的
统计模型分类:(最常用)
查询词分类:根据查询词本身进行分类,即建立基于字面意义的统计分类模型
查询词扩展分类:基于查询词扩展信息的分类,即基于真实社会知识的分离,通常是搜索结果扩展
例如,《家常菜》其实就是一个电视节目!
查询词分类:
查询词-->查询纠错、正则化、知识词汇-->Uni-gram、Bi-gram、CRF、语料分类模型-->搜索结果验证、垂直搜索结果验证-->查询扩展分类结果
查询扩展分类:
查询词-->搜索结果1,2,3,4-->标题分类,摘要分类,网站分类-->结果分类1,2,3,4-->查询扩展分类结果
(验证每个搜索结果的查询意图强度和类别)
需要配合不断更新的语料,可以通过流程自动更新
比较可行的方法是:
先到软件下载站点
下拉排行榜TOP 100(这些都有软件下载查询要求)
搜索一次,然后分别获取前 50 个搜索结果
作为一个大小为 5000 的语料库,它可以被训练
持续和自动更新
搜索意图确定未来
无类别概念的意图识别
基于垂直搜索的分类模型,而不是基于类别的分类模型,帮助用户在不限制类别的情况下得到他们想要的东西
例如,将一个类别与 网站 本身关联,并直接在 网站 内的数据库中搜索
个性化意图上下文分析
根据用户特征创建个性化信息,获取用户短期和长期兴趣,优化意图识别
精确的意图理解
更准确的理解意图,分析所有价值信息,当前呈现多为整体呈现,可进一步发展生成个体呈现
语言应用的意图理解
针对语言应用的特点进行了优化,如语言纠错、个性信息辅助意图识别等。