解决方案:天池技术峰会-天池云平台核心方法算法(图)
优采云 发布时间: 2022-10-25 00:10解决方案:天池技术峰会-天池云平台核心方法算法(图)
文章网址采集器-天池开发者节-天池技术峰会-天池云平台核心方法算法
1、利用分词相关词(主要为词典词库)算法来识别lda匹配部分;
2、利用概率词(目前采用的算法较少,
3、利用神经网络简单的hmm模型判断;
4、利用crf进行相似度度量;
5、对lda匹配的情况做概率分布拟合;
6、超高频词鉴别分析;
7、文本摘要;
8、nlp性能优化;
9、短文本抓取分析。这一个篇作业,主要是需要掌握下面的一些知识:基本数据结构中数据的预处理、编程,与nlp常用工具。如果有做真正的nlp还需要具备知识以下1.knn,朴素贝叶斯,决策树,朴素循环神经网络,朴素神经元,lda,em算法2.英文nlp的算法类型,如linguee,charfesh,cfd,em算法等3.对于词典类数据的特征选择问题。
个人认为应该是先搞清楚rnn中文信息去重的处理方法,然后根据方法来处理rnn,inductivebias能够有效地解决去重问题,可能用做有用的关键词提取等使用,我也是刚刚开始学习,
建议先掌握基本的机器学习理论,再尝试用深度学习的方法来解决这个问题,当然如果有必要,可以用一下神经网络。wide&deep,lstm,gru模型,lstm的话,即使用长短记忆模型也可以。以上为推荐方向,建议先自己先做一些类似的实验,或者自己模拟一些场景。然后可以扩展下框架,为何不尝试下word2vec,再看看有没有其他更简单的可以尝试一下。个人见解,有不对的地方还请指正~。