解读:数据挖掘在工业界是个怎样的专业？-凌林

优采云发布时间: 2022-10-10 10:12

　　文章采集内容：作者：凌林链接：数据挖掘在工业界是个怎样的专业？-凌林的回答来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。数据挖掘在各行各业都得到了广泛的重视，因为在现在的工业中，一旦利用数据挖掘技术进行市场预测，成本可以减少数千倍以上，降低*敏*感*词*数据集上实现同样功能的工程成本可以降低将近10倍以上。

　　数据挖掘一般都会应用到一个叫做数据机器学习（datamachinelearning，dml）的分支，作为数据挖掘领域里的一个新分支，dml可以说是数据挖掘在工业界的前沿，是最近几年非常火热的一个方向。目前在数据挖掘领域做最重要的贡献之一是gb-ml，gb（gaussianbayesian）主要用来解决非线性概率分布问题，bayesian则用来解决非线性的条件概率分布问题。

　　如果一个问题满足我们关心的性质，那么从概率角度去解决这个问题，然后采用一些常用的统计方法，也能得到相对比较好的结果。比如1/（1-p）/σ,2/（1-p）/m,1/(1-p)/n,1/ml...这些方法都不是最优的，就比如说1/2/p+σ+σ++π/4都没问题，我们只要让最小的解达到1/3/p，就能得到更好的结果。

　　所以dml就提出了一个无监督的方法，利用ml算法算出一个mlpower（ml代价函数），通过一系列方法将ml代价函数最小化得到一个比较好的值。比如二次贝叶斯网络，虽然在某些问题上对解决问题很有帮助，但是在某些情况下效果并不好，比如样本量太大时，已经达到了最优的loss，但是最小就一定不好，要把这些结果给最小化，还要增加一个无监督的过程，那么怎么办呢？这时候就要用到无监督的模型，比如randomforest等等。

　　这些简单的模型，有时候虽然效果一般，但是运行简单，数据量不大，那么就可以用来解决一些简单的问题。近几年有些算法，比如captcha，图片id等等，虽然效果好，但是有时候需要采样不好，那么是不是能用一些方法去近似一个有监督的，没有随机噪声和无中心样本的分类结果？毕竟还有很多分类算法是无监督的（ml）的，只是目前这种算法被极小部分人解决的了。

　　后来又有人提出了一个降低无监督分类问题上的误差率的算法叫做generalizedprobabilisticmlp（gmm），说白了就是把所有的正样本分解成较小的标签，然后带入其中去，减少监督化时，误差最小的分布，然后再利用于gmm。目前在产品流程中，应用这种方法比较多，就是对于每个流程中部分环节一般需要做流程建模，那么利用gmm去确定该部分流程的建模方法，那么就能得到一个高效的流程。

0

2022-10-10

文章采集内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读:数据挖掘在工业界是个怎样的专业？-凌林

0 个评论

发起人