多维度分析你之前没有用过的所有词条
优采云 发布时间: 2021-04-05 00:03多维度分析你之前没有用过的所有词条
querylist采集微信公众号文章的所有词条,不能算是句子。如下图。每当新文章发布时,touch模式会根据词条质量分对每个文章加权重,得分排名靠前的词条会放到table模式。出现在table的词条,质量分也不会特别高。而且,要求文章的所有词条全都出现。table很多,分词器很难实现。jieba+wordcloud解决了问题。
可以用任何你能找到的结构化格式,例如es,hdf5,neo4j,lda,parsingtool.多维图像处理是基础,word2vec更好,但也有优缺点。多维度分析你之前没有用过的。最新:推荐阅读:《中文“归并排序”vs“最大匹配”之争》,《人人都是推荐者|听我说推荐算法》《推荐系统入门指南》,《搜索引擎五步训练笔记》。
这样做确实是最坏的方法。做过wordsensitiveanalysis比较多,我记得有个方法可以用正则表达式来检测文章中的词。
谢谢yeol的精彩回答,原来你还在其他的问题回答过。
推荐一本英文的《queryprocessingwithrbasedonthepythonmodelandgraphmethods》的前三章。这本书很有意思,通过直观图像化探讨怎么找出文章中的热词。在里面最后给了个代码,现在的热词识别方法一般基于bloomfilter之类的东西,那本书里可以直接拿到那些rnn结构的结果。