多维度分析你之前没有用过的所有词条

优采云 发布时间: 2021-04-05 00:03

  多维度分析你之前没有用过的所有词条

  querylist采集微信公众号文章的所有词条,不能算是句子。如下图。每当新文章发布时,touch模式会根据词条质量分对每个文章加权重,得分排名靠前的词条会放到table模式。出现在table的词条,质量分也不会特别高。而且,要求文章的所有词条全都出现。table很多,分词器很难实现。jieba+wordcloud解决了问题。

  可以用任何你能找到的结构化格式,例如es,hdf5,neo4j,lda,parsingtool.多维图像处理是基础,word2vec更好,但也有优缺点。多维度分析你之前没有用过的。最新:推荐阅读:《中文“归并排序”vs“最大匹配”之争》,《人人都是推荐者|听我说推荐算法》《推荐系统入门指南》,《搜索引擎五步训练笔记》。

  这样做确实是最坏的方法。做过wordsensitiveanalysis比较多,我记得有个方法可以用正则表达式来检测文章中的词。

  谢谢yeol的精彩回答,原来你还在其他的问题回答过。

  推荐一本英文的《queryprocessingwithrbasedonthepythonmodelandgraphmethods》的前三章。这本书很有意思,通过直观图像化探讨怎么找出文章中的热词。在里面最后给了个代码,现在的热词识别方法一般基于bloomfilter之类的东西,那本书里可以直接拿到那些rnn结构的结果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线