实时文章采集(文章标题取消词的束缚,用一句话定义所有文章主题)

优采云 发布时间: 2022-03-31 03:03

  实时文章采集(文章标题取消词的束缚,用一句话定义所有文章主题)

  实时文章采集的方法,要对文章关键词进行分词,统计分词词频,对词频进行统计。然后根据统计结果,分词频高的词,插入到主题或者文章里,而对于词少,词频低的词,分不清的词,比如手机,就可以作为无关词,直接空白即可。因为主题是统计主题内的文章,所以一个分词词频比较高的词,往往对应的是很多个文章。通过计算,文章分词情况下词与词的分布情况,比如,文章首尾的分布情况,可以作为剔除一些无关的文章的依据。未完待续,谢谢。

  1、有了一个wordembedding,可以得到一些标签。

  2、用一个pre-crf去softmax,可以得到特征和标签。

  3、embedding用的是word2vec的embeddings,用于mlp处理对应层特征。然后用softmax做logloglikelihood。

  4、然后用另一个loglikelihood去做softmax。

  monolingual

  高效、全面、明确的文章标题!文章标题(title)取消词的束缚,用一句话定义所有文章的主题。可以让任何能表达主题的单词都变成文章的标题,使用lstm-tfcnn-embedding替代单词向量来提升传统文章的准确率。简单不受限的文章标题分词以及词语构成合理的list(有很多替代方案)。文章标题构建简单方便,有数据集不妨给出一个模板。

  然后可以通过改进以上分词方案(机器学习)方法来提升准确率。最后cnn-embedding做序列标注作为文章主题,编辑文章等方面的用处。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线