搜索引擎主题模型优化(【T·每日一题】2016年10月21日)

优采云 发布时间: 2022-04-20 17:07

  搜索引擎主题模型优化(【T·每日一题】2016年10月21日)

  作者:张帆(自然语言处理组@搜狗)

  通用搜索与垂直搜索

  通用搜索功能:

  爬取互联网上所有有价值的页面,同意建立索引,以关键词匹配为基本检索方式,以网页标题和摘要为呈现方式

  谷歌、百度、搜狗、搜搜、有道

  垂直搜索功能:

  以特定类别为主题,只抓取与主题相关的信息,并根据主题的特点建立相应的索引检索方法、筛选方法和呈现方法

  机票搜索、地图搜索、购物搜索(一次购物)...

  解决方案:通用搜索引擎+垂直搜索引擎

  意图识别

  意图搜索的难点:

  不规则输入

  多样化的输入法

  非常不规则

  堆叠关键词

  自然语言查询

  甚至非标准的自然语言

  多重意图

  如:仙剑奇侠传

  游戏?--> 游戏软件?...

  电视剧?--> 电视剧下载?相关新闻?...

  电影?--> 电影下载?看影评?概要?...

  音乐?--> 歌曲下载?在线听音乐?歌词下载?...

  小说?--> 小说下载?在线观看?...

  意图的强度

  如:荷塘月光

  荷塘月光歌 --> 歌曲下载:50%

  莲池月光社区 --> 房产需求:20%

  荷塘月光蔬菜 --> 配方要求:10%

  结果的可靠性

  这些为我们获取搜索结果的垂直网站往往都是中小型网站,我们需要保证搜索结果的准确性和相关性

  如:遥控车

  预期结果:返回所有遥控车的相关结果

  实际返回:

  遥控车 --> 遥控车没有结果

  遥控-->返回遥控,遥控平面等于结果与本意无关

  car --> 返回汽车型号,汽车零件等于原意无关结果

  (例如,京东这样拆分搜索词)

  时效性

  例如:iPhone 5 7 月 1 日开售

  6 月 30 日的查询意图:新闻 90%,维基百科 10%

  7 月 1 日的查询意图:新闻 70%,购买 25%,维基百科 5%

  8月1日查询意向:购买50%,信息40%,其他10%

  5 年后的查询意图:维基百科 100%

  详尽词汇法:

  最简单直接的方法是通过词汇表的直接匹配来获得查询意图。也可以添加到适合更简单、更集中查询的类别,如电视节目查询、节假日查询、餐厅查询等。

  例如:北京的天气怎么样?

  (停用词替换)--> [北京][天气][怎么样]

  (查询词属于一) --> {city][关键词][查询词]

  (顺序无关)--> {[city], [关键词], [question word]}

  给定一个白名单:

  规则解析方法:

  适用于一些查询不集中但非常符合规则的品类,通过规则解析查询进行意图识别和关键信息提取,如汇率查询、计算器、度量衡等。

  如:236.2块钱可以兑换多少*敏*感*词*?

  [236.2] [今天] [*敏*感*词*]可以兑换多少[美元]?

  [数字][货币单位][日期]可以兑换多少[货币单位]?

  ★通过知识图谱替换/对应/规范化

  解析:

  数量:236.2

  来源货币:美元(不再是“美元”)

  目的货币:*敏*感*词*

  ★通过自己建立的一些语言模型,可以更好的解决召回率低的问题

  如果模型训练好,相对召回率也很好

  但是比如购物等,是不可能做这种信息模型的

  统计模型分类:(最常用)

  查询词分类:根据查询词本身进行分类,即建立基于字面意义的统计分类模型

  查询词扩展分类:基于查询词扩展信息的分类,即基于真实社会知识的分离,通常是搜索结果扩展

  例如,《家常菜》其实就是一个电视节目!

  查询词分类:

  查询词-->查询纠错、正则化、知识词汇-->Uni-gram、Bi-gram、CRF、语料分类模型-->搜索结果验证、垂直搜索结果验证-->查询扩展分类结果

  查询扩展分类:

  查询词-->搜索结果1,2,3,4-->标题分类,摘要分类,网站分类-->结果分类1,2,3,4-->查询扩展分类结果

  (验证每个搜索结果的查询意图强度和类别)

  需要配合不断更新的语料,可以通过流程自动更新

  比较可行的方法是:

  先到软件下载站点

  下拉排行榜TOP 100(这些都有软件下载查询要求)

  搜索一次,然后分别获取前 50 个搜索结果

  作为一个大小为 5000 的语料库,它可以被训练

  持续和自动更新

  搜索意图确定未来

  无类别概念的意图识别

  基于垂直搜索的分类模型,而不是基于类别的分类模型,帮助用户在不限制类别的情况下得到他们想要的东西

  例如,将一个类别与 网站 本身关联,并直接在 网站 内的数据库中搜索

  个性化意图上下文分析

  根据用户特征创建个性化信息,获取用户短期和长期兴趣,优化意图识别

  精确的意图理解

  更准确的理解意图,分析所有价值信息,当前呈现多为整体呈现,可进一步发展生成个体呈现

  语言应用的意图理解

  针对语言应用的特点进行了优化,如语言纠错、个性信息辅助意图识别等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线