采集内容插入词库(搜狗输入法的诞生说起了,热词收录的门槛是什么?)
优采云 发布时间: 2022-03-12 05:00采集内容插入词库(搜狗输入法的诞生说起了,热词收录的门槛是什么?)
以搜狗输入法为例。
说起这个问题,要从智能输入法之父搜狗输入法的诞生说起。搜狗输入法是第一款融合互联网大数据的输入法产品。其词库内容来源于互联网,反映了大部分人的输入习惯。互联网的内容日新月异,输入法自然也有相应的需求。有两种内容变化。一是词库的周期性变化。词库各版本内容都会更新,反映整体输入趋势的变化。每日热词更新反映了较小的时间段。输入变化。
聪明的女人没有米饭是很难做饭的。热词来自大数据,所以我们先从数据说起。我们都知道输入法的大数据来自于搜索引擎,所以网页的内容自然会被输入法覆盖,各个垂直领域的内容也会是收录。与此同时,许多参与用户体验计划的用户也在默默地为数据的生成做出贡献。搜狗输入法不仅集成了搜狗搜索的索引,还引入了各个垂直领域的内容数据,比如千万级地图POI数据。热门网站数据的索引通常每隔几个小时更新一次,而不太热门的网站则需要每周更新一次,甚至更长。“互联网+”等新词
先说热词:热词是指一段时间内突然流行起来的词。这可能是一个已有的词突然又流行起来或者被重新定义了,也可能是一个新生成的新词。
通过比较不同时间段的词频,我们可以描绘出一个词的检索流行度的变化。词频的急剧上升预示着热词的诞生,而下降的过程相对缓慢。检索趋势的变化是搜索引擎的基本技能。例如,“伊能静”这个词最近因为她结婚的传闻而在搜索量上急剧上升。
热词阈值收录:发现的热词都是提供给用户的吗?
它仍然需要经历几个障碍。首先找到的热词需要有一定的输入量。少量输入的条目的传递会影响正常输入。其次,如果是已有词条,则找到的热词词频方差应该比较大,而且这样的词条具有很强的时间相关性。此外,该词条还存在一些属性问题,如*敏*感*词*词需要特殊处理等。
噪声过滤
数据中难免有些杂音,比如收录“计”、“报”、“通过”的条目。再比如,当一个新词诞生时,在它进入用户的输入法之前,用户难免会出现一些错误的书写方式。这些错误的写法也有一定的流行度,是应该过滤掉的错误数据。但也会有一些例外,比如“抬头姿势”、“少女纸”,都是故意打错的网络新词。
当一系列的机器加工完成后,就是人工检验验证,做最后的保证。
当然,机器不能解决所有问题,数据采集和分析总是存在一定的滞后性。个别条目,尤其是可预见的条目,肯定会大受欢迎,但刚刚发生的事件是由运营同学的主观定义来决定是否分发给用户的。
互联网时代,唯快不破。紧跟时代潮流,热词只是大数据挖掘的一个小体现。算法是关键,但核心仍然是数据。