【每日一题】采集内容插入词库语料库*敏*感*词*分布

优采云 发布时间: 2021-08-19 20:02

  【每日一题】采集内容插入词库语料库*敏*感*词*分布

  采集内容插入词库语料库*敏*感*词*分布。一个人可以实现数万甚至数十万词库的收集,而且整理的容易,

  收集词库。组建语料库,然后后期测试。尽量用每日本身单独词库。

  只从技术方面讲,其实只要用到一个wordlevel的检索,国内大部分新词库都是没有的。另外,现在很多新词库没有准确定义,有的甚至没有在字典里收录,都是人为造出来的。还有一个办法就是用输入法扩展词库。比如我们自己做的一个随机词库每天200万个词,那一天要搜多少词呢?只能自己定义一个叫时刻的集合(你的机器不可能没有时间,你要让它有多少个时刻)每天搜多少个词,而且每个时刻必须搜这些词。基本上用几分钟时间就能拼出来了,有空就看看。

  本身就要很多人来一点点解释。最简单的就是填词库。这应该属于泛用性质的词库,什么都要用。而且这个词库的意义是要依托于人来提供。有人想加入,大家才开始更新。如果没有人想加入,那自然就不更新了。

  我在这里给你推荐一款非常有效、全面、专业的。havingwordsearch,

  *敏*感*词*统计词库构建,

  我要先说,这些词典都没用,比如我要学钢琴,先把音阶、琶音练扎实,在家慢慢练,天赋再高点肯定能学好,到那时候理解力比词典重要。词典不过是培养兴趣,训练听音速度,猜词程度的工具而已,跟英语能力最没关系。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线