采集内容插入词库(搜狗输入法的诞生说起了,热词收录的门槛是什么?)
优采云 发布时间: 2021-11-08 21:01采集内容插入词库(搜狗输入法的诞生说起了,热词收录的门槛是什么?)
以搜狗输入法为例。
说起这个问题,要从智能输入法之父搜狗输入法的诞生说起。搜狗输入法是第一款集成互联网大数据的输入法产品。其词库内容来源于互联网,反映了大多数人的输入习惯。互联网的内容日新月异,输入法自然有相应的变化需求。有两种内容更改。一是词库的周期性变化。每个版本的词库内容都会更新,反映整体输入趋势的变化。每日热词更新反映了较小的周期。输入发生变化。
聪明的女人做饭没有米饭是很难的。热词来自大数据,所以首先要从数据入手。我们都知道输入法的大数据来自于搜索引擎,所以网页的内容自然会被输入法覆盖,每个垂直字段的内容也会收录。与此同时,许多参与过用户体验计划的用户都在默默地为数据的生成做出贡献。搜狗输入法不仅集成了搜狗搜索索引,还引入了各个垂直领域的内容数据,比如千万级地图POI数据。热门网站数据的索引一般每隔几个小时更新一次,不太热门的网站的索引数据需要每周更新一次或更多。“互联网+”等新词 通常是第一次在门户网站网站上曝光。这样的词很快就会被搜索引擎收录搜索到,自然输入法也会被收录进来。
先说热词:热词是指一段时间内突然流行起来的词汇。可能是现有术语突然再次流行或被重新定义,也可能是新生成的新词。
通过比较词条在不同时间段出现的频率,我们可以描述一个词条在搜索热度上的变化。词频的急剧上升预示着一个热词的诞生,而下降的过程相对缓慢。改变搜索趋势是搜索引擎的基本功。例如,“伊能静”这个词最近因为传出结婚的传闻,搜索量急剧上升。
热词门槛收录:所有找到的热词都会提供给用户吗?
它仍然需要通过几个障碍。首先发现的热词需要有一定的输入量,少输入词的发布会影响正常输入。其次,如果是已经存在的词条,那么搜索到的热词频率的方差应该比较大,这样的词条的时间相关性强。此外,还有一些术语的属性问题,比如需要特殊处理的*敏*感*词*词等等。
噪音过滤
数据中难免会有一些杂音,比如收录“zhe”、“le”、“over”的条目。再比如,当一个新词诞生时,在进入用户的输入法之前,用户难免会有些写错。这些错误的文章也有一定的流行度,是应该过滤掉的错误数据。但也有一些例外,比如“上升姿势”和“美智”,都是故意打错造成的网络新词。
一系列的机器加工完成后,经过人工检查验证,做出最终保证。
当然,机器并不能解决所有问题,数据的采集和分析总是存在一定的滞后性。个别条目,尤其是可预测的条目,会很受欢迎,但刚刚发生的事件是通过操作学生的主观定义来决定是否发送给用户。
互联网时代,唯快不破。紧跟时代潮流,热词只是大数据挖掘的一个小体现。算法是关键,但核心还是数据。