采集内容插入词库中,变相拓展了文章信息复用容量
优采云 发布时间: 2021-07-20 02:02采集内容插入词库中,变相拓展了文章信息复用容量
采集内容插入词库中,变相拓展了词库容量。这样不仅延长了文章信息复用,还不会在内容相同的文章产生重复词的情况。对于做重复文章来说是很有必要的。
我只知道短文章不可以使用词库,长文章不太清楚。不过我猜测这个需求不是很强烈吧,毕竟长文章传达的信息更多,更系统。
据我所知,短文章是不需要的,而长文章也是如此。实际上,我们也会保存一些短文章和长文章,最大的作用是在机器写作时候参考。据说googledocs的短文章和长文章收录量是平分秋色的。
【词库】两个字,换个说法就是定向再授权。word2vec训练结果,word2vec可以进行语言模型的训练,即可训练出词向量词嵌入的表示,利用它可以对词向量等进行参数标定。但是直接训练这么一套词向量上去,相比于复用[word2vec]方法,需要导入句子级别的表示。所以我们也有做词库:【词典】训练时候,利用词典复用[word2vec]的方法。
原词典和词向量词嵌入也已同步到googlecolab。yaser:[词典]利用google网页级的词表达训练词向量标定。但这样大约就可以了,用词库造词需要耗费大量的计算资源。
如果产生的词流里有许多一样的词,导致同一个词组的两个词向量就是相同的那么肯定会失去它所表达的意思,反之利用词库的话那么效果也一定不好,一般都是用到词汇表里进行词向量匹配,词向量(词矩阵)是可以用来匹配不同词组的词向量的,词向量本身也可以进行优化,词向量其实是来表达不同词组之间的一种相似性。当然相似也有其相似的点,相似与否通过词向量的相似性可以很明显的判断,词向量本身表达的意思是词组中的比较相似的词,同一个词当然也可以表达相似意思,这个相似的点可以是不同词的前后缀、后缀、同音等,也可以是前后缀的差异,中间高低音之类的。