解读:数据挖掘在工业界是个怎样的专业?-凌林

优采云 发布时间: 2022-10-10 10:12

  解读:数据挖掘在工业界是个怎样的专业?-凌林

  文章采集内容:作者:凌林链接:数据挖掘在工业界是个怎样的专业?-凌林的回答来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。数据挖掘在各行各业都得到了广泛的重视,因为在现在的工业中,一旦利用数据挖掘技术进行市场预测,成本可以减少数千倍以上,降低*敏*感*词*数据集上实现同样功能的工程成本可以降低将近10倍以上。

  

  数据挖掘一般都会应用到一个叫做数据机器学习(datamachinelearning,dml)的分支,作为数据挖掘领域里的一个新分支,dml可以说是数据挖掘在工业界的前沿,是最近几年非常火热的一个方向。目前在数据挖掘领域做最重要的贡献之一是gb-ml,gb(gaussianbayesian)主要用来解决非线性概率分布问题,bayesian则用来解决非线性的条件概率分布问题。

  如果一个问题满足我们关心的性质,那么从概率角度去解决这个问题,然后采用一些常用的统计方法,也能得到相对比较好的结果。比如1/(1-p)/σ,2/(1-p)/m,1/(1-p)/n,1/ml...这些方法都不是最优的,就比如说1/2/p+σ+σ++π/4都没问题,我们只要让最小的解达到1/3/p,就能得到更好的结果。

  

  所以dml就提出了一个无监督的方法,利用ml算法算出一个mlpower(ml代价函数),通过一系列方法将ml代价函数最小化得到一个比较好的值。比如二次贝叶斯网络,虽然在某些问题上对解决问题很有帮助,但是在某些情况下效果并不好,比如样本量太大时,已经达到了最优的loss,但是最小就一定不好,要把这些结果给最小化,还要增加一个无监督的过程,那么怎么办呢?这时候就要用到无监督的模型,比如randomforest等等。

  这些简单的模型,有时候虽然效果一般,但是运行简单,数据量不大,那么就可以用来解决一些简单的问题。近几年有些算法,比如captcha,图片id等等,虽然效果好,但是有时候需要采样不好,那么是不是能用一些方法去近似一个有监督的,没有随机噪声和无中心样本的分类结果?毕竟还有很多分类算法是无监督的(ml)的,只是目前这种算法被极小部分人解决的了。

  后来又有人提出了一个降低无监督分类问题上的误差率的算法叫做generalizedprobabilisticmlp(gmm),说白了就是把所有的正样本分解成较小的标签,然后带入其中去,减少监督化时,误差最小的分布,然后再利用于gmm。目前在产品流程中,应用这种方法比较多,就是对于每个流程中部分环节一般需要做流程建模,那么利用gmm去确定该部分流程的建模方法,那么就能得到一个高效的流程。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线