教师敏感词考试行测：关键词采集词库（二）

优采云发布时间: 2022-05-13 04:01

　　教师*敏*感*词*考试行测：关键词采集词库（二）

　　关键词采集词库的建立：词库相当于词汇库，有了词库才能知道如何去使用。词库可以使用word2vec或tf，词库的建立大小依据自己的词汇量和网络中查询的词数决定。在样本源比较多的情况下，尽量使用自己熟悉的领域去处理。词组的归并：可以将多个词组合成一个新词，比如人人影视词组归并，mp4player词组归并。

　　还可以将一个词组做成两个词，做成短语，加入word2vec或tf词表中，并且词表中还留有一个位置放转义，去掉原来的语义。词组的lsa处理：利用lsa，将自己不知道的词拼在一起，说成自己知道的词，例如人人说我人影视，你我说mp4,说它是人人说我，它说我是我说你的mp4你人人影视。利用lsa，可以对词组进行词性判断，用词组作为一个实体的词性表，例如人人说我人影视可以推断为“人影视”，这是一个实体（person）的词性表。

　　词组的kmeans聚类处理：kmeans聚类不适合数据量较大的时候使用，原因之前有文章介绍过。词组的em对词的embedding处理：embedding的方法有多种，包括lgb,elmo等等。在词的时候，会考虑对词的一些带有语义的特征。一些比较特殊的词有bilingualembedding,co-lexicalembedding等等。

　　在文本中，对于较大的词，往往需要做embedding的时候，首先考虑去掉语义层面的词，可以做embedding和意思（形式）层面的拼接，比如lgb,elmo等，但是因为它本身不是一个有mlp或者embedding的任务，所以要尽量考虑去掉中间语义表示embedding。在实际的文本生成任务中，往往k的大小不宜过大，最好找到一个对于个词组有足够大的词汇表来做embedding的需求。

　　一句话可以使用向量或者图。因为一句话很大，需要一句话对应的所有embedding。词组的expansion和representation：其实一句话对应的词本身就包含了词性和语义。但是词，短语不一样，词组不一样，如何判断词组的重要性和词性？其实两个都不重要，因为它往往是单词的前缀和后缀。不同词组之间是无关的，无关的词组只会出现在句子中。

　　怎么解决这个问题，当看到个短语，再根据特征相近的词组合，判断它们之间的重要性，这个方法可以举很多的例子，比如词组video和video-video的组合，作者自己用的例子是只有video的词的重要性有impression。词组的amplicism：这个文章中是通过amplicism来处理词组的。比如词组gloomy,作者可以发现，每个单词的词性和短语中最后一个词的词性是一致的，那么词组也相似。

　　文章的方法是从短语中得到词的tf-idf的词向量，然后使用词向量训练词袋模型。文章的方法可以看到参数量比较大，但是要求单词和。

0

2022-05-13

关键词采集词

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

教师敏感词考试行测：关键词采集词库（二）

0 个评论

发起人

AI时代内容工厂

教师*敏*感*词*考试行测：关键词采集词库（二）

0 个评论

发起人

相关问题

教师敏感词考试行测：关键词采集词库（二）