seo攻略:搜索引擎优化策略与实战案例详解(各种机器学习算法的应用场景分别是什么(一))
优采云 发布时间: 2022-03-11 14:08seo攻略:搜索引擎优化策略与实战案例详解(各种机器学习算法的应用场景分别是什么(一))
有网友问:各种机器学习算法(如朴素贝叶斯、决策树、K-近邻、SVM、逻辑回归最大熵模型)的应用场景是什么?
这些在一般工作中使用的频率如何?通用目的是什么?需要注意什么?
根据问题,核心关键词是基础算法和应用场景。更令人担忧的一点是,这些基础算法是否可以学习和使用?毕竟上面的算法是大家都接触过的。书架上可能还有几本充满情怀的《数据挖掘入门》、《模式分类》等经典书籍。有顾虑。
网上已经有很多内容回答了经典算法的基本思想和理论应用场景。这些场景更像是模型的适用范围,实际上与工业算法的实际实现有很大的不同。
从行业角度看,业务价值是衡量算法优劣的金钥匙,业务场景往往包括业务目标、约束条件和实施成本。如果只看目标,那么前沿算法往往会占据主导地位,但如果要考虑到算法操作的复杂性、快速迭代试错、各种强加的业务约束等,经典算法往往更好,从而占据一席之地。
针对这个问题,公司陶部技术算法工程师在本文中写了详细的解答。
在实际的业务价值中,算法模型的影响大概是10%
在工业世界中,算法从构思到实施,你并不孤单。我以推荐算法为例,假设我们当前接收的任务是支持某频道页面Feed流的推荐。我们首先应该意识到,对于业务来说,模型的影响大约是 10%,其他几个重要的因素是产品设计(40%)、数据(30%)、领域知识的表示和建模(20%)。
这意味着,如果将普通的LR模型升级为深度模型,即使提升20%,对业务的贡献也可能只有2%左右。当然,2%并不是很多,但是这个折扣是很让人头疼的。
当然,上述比例并不是一成不变的。2015年是阿里巴巴推荐算法元年,个性化推荐往往以操作规则为基准。那么,算法工程师的日常除了满足需求外,就是做优化:业务给我输入日志、特征和优化目标,剩下的就交给我了。
但随着潮流逐年上涨,大家使用的模型自然也越来越复杂。从LR->FTRL->WDL->DeepFM->MMOE,大家也跟着前人一步一步走下的路走。此时,如果你问谁还在用 LR 还是普通的决策树,你确实会尴尬一笑。
但渐渐地,大家意识到模型优化毕竟是边际收益递减的问题。当我们将业务方面与外界隔绝,只在有限的空间内进行优化时,天花板就已经注定了。于是渐渐地,淘系的推荐慢慢进入了第二阶段,算法与业务共建阶段。业务需求和算法优化虽然还是分开的,但已经开始趋同。
团队对算法工程师的要求也在发生变化:如果一个高层次的深度模型不能清晰地描述业务价值,或者不能带来特别显着的提升,那只能算是闭门造车。这时候,优秀的算法工程师就需要熟悉业务,通过与业务的反复交流,摸清业务痛点。
请注意,业务方面甚至可能是当局的粉丝,并且会问你想要什么和你想要什么,你需要真正专注于最有价值的问题。然后是问题的算法描述。这样做之后,你会发现决定哪个模型最好的不是你,而是跟随问题的模型的选择。这个模型的第一个版本很可能是一个经典算法,因为你需要尽快运行链接来快速验证你的想法是否有效。后续的模型迭代改进只是时间问题。
淘系经典算法应用场景示例:TF-IDF、K-近邻、朴素贝叶斯、逻辑回归等。
所以,现阶段,淘系的大部分场景,不是算法驱动业务,而是配合业务完成增长。一个只懂技术的算法工程师最多只能拿到10%的满分。为了让您了解该做什么,这里还有一些示例:
比如业务问题是在人群中标记用户,包括钓鱼迷、豆蔻少女、耳机爱好者、男神风格等。在实践中,我们不仅需要考虑用户的年龄、性别、购买力等属性,还需要考虑用户在淘宝的长期行为,从而得到一个多分类任务。如果模型中使用的特征是每月访问频率,那么豆蔻女孩很可能会吸引大量用户,因为女装是购物行为最频繁的类别。
例如,一个用户在一个月内访问了 4 次耳机爱好者和豆蔻女孩。假设每位耳机爱好者的访问次数为3.2次,豆蔻少女为4.8次,那么可以看出用户对耳机爱好者的偏好得分应该更高。因此,模型特征不仅要使用用户在人群中的绝对行为频率,还要参考市场水位给出相对行为频率。
这时,吴军老师《数学之美》中选用的TF-IDF算法就派上用场了。通过引入TF-IDF构建特征,可以显着提升人群标注的模型效果,TF-IDF是一种非常基础的文本分类算法。
在基于Tao的推荐场景中,提高Feed的点击率或转化率往往是一个常见的场景。但生意总会给你惊喜:比如库存只有一件(阿里巴巴拍卖),比如推荐的大部分都是新品(天猫新品),比如吸引用户复购正品通过小样,这些用户大多是第一次来(天猫U优先),或者在提高效率的同时,需要考虑品类的丰富度(很多场景)。
在上述不同业务约束的背景下,才是我们真正面临的应用场景。面对这种情况,首先要确定一个方向。例如,阿里拍卖中的问题可以描述为“如何在浅库存约束下进行个性化推荐”。如果您确定这是一个流量调节问题,则需要列出优化目标和约束,并研究如何使用拉格朗日乘子法求解。重要的是,最终结果还需要与个性化推荐系统相结合。看: 。
面对上述应用场景,你需要明白你的战略目标是证明浅库存约束下的推荐是一个流量调控问题,你可以快速验证效果。用成熟经典的方法快速实现实验,然后逐步迭代,是一个明智的选择。
再举一个例子,K-最近邻算法似乎很简单,可以用一个图或一个句子来描述。但它可以在解决正负样本不平衡的问题上派上用场。上采样意味着对少数类的数据(通常是正样本)进行多个副本,但是上采样后重复数据集的存在可能会导致过拟合。过拟合的一个原因是局部尺度上正负样本比例的差异,如下图所示:
我们只需要对 C 类的局部样本进行上采样,它使用了 K 近邻算法。虽然这个例子中的经典算法只是环节的一部分,甚至只是一个配角,但没有它是做不到的。
虽然朴素贝叶斯更简单,但贝叶斯理论的未来发展,包括贝叶斯网络和因果图,并不是那么简单。例如,无论是金融业务中的 LR 记分卡模型,还是推荐算法细化排名中的深度模型,交叉特征往往是由人工经验配置的,这甚至是算法中自动化程度最低的部分。
利用贝叶斯网络中的结构学习,结合业务输入的行业知识,构建贝叶斯概率图,找出相关特征相交,相对于手动配置会带来一定的提升,同时也具有更好的可解释性. 这是将业务领域知识与算法模型相结合的一个很好的例子。但如果贝叶斯理论不牢固,就很难走到这一步。
无论深度学习多么流行,LR都是大多数场景的备份。比如双11大促的场景,如果在0:00~0:30这样的高峰期,所有场景都使用深度模型,机器资源肯定是不够的。这时候就需要做一个降级来使用LR或者FTRL。计划。
如何成为行业内优秀的算法工程师?
在道系,算法不是孤立存在的,算法工程师也不仅仅是封闭的剑客。如何直击业务痛点,快速验证你的想法,如何选择合适的算法,需要你具备良好的算法基础能力和广阔的算法视野。无论模型多么复杂,最终的答案都是商业价值。一个基本功好,学习能力强,善于发现商业价值的算法工程师,会有很大的成长空间。
那么,假设以上是我们的职业目标,我们该如何实现呢?元(叶)方(杰),你怎么看?其实只有一句话,理论与实践相结合。
理论
对于算法基本思想的理解,查看知乎可能只需要20分钟,但如果忘记了可能只需要2周。这里的理论是你从内到外对算法的感知。例如,说到决策树,你似乎可以在脑海中模拟出它的信息增益计算、特征选择、节点分裂过程,并且知道它的优缺点。最终,这一切都是为了在实践中快速确定它是解决手头问题的最佳模型。
获得扎实的基本技能是一项缓慢的工作。方法可以是阅读经典原著,学习视频分享,或者使用高级语言。重要的是心态,要冷静,不要期望,要热情;另外,如果您有兴趣小组可以分享,那么恭喜您。因为看书或者看论文的过程其实挺枯燥的,但是如果你有动力分享,可以走得更远。
实践
我们都知道实践带来真知,但实践往往是残酷的。因为有太多的需求和限制,问题需要你自己去发现,留给你的时间窗口很短。即算法是确定性、适用边界、标准化的事物;而企业是一个发散的、多目标的、经验驱动的事物。
首先,你需要有一双发现的眼睛,才能找到最有价值的点。这需要数据分析和业务经验,留下最重要的优化目标和约束,尽可能简化问题;其次,有一个张能会好好说话,否则,商家怎么舍得给你这个时间窗口让你去尝试;最后,赌上你的性格后,你需要尽快在这个窗口期做出效果,而在这种压力下,考验你的算法基础的时间已经到来。
结语
最后让大家猜一个谜语:它是一个计算复杂度低的贪吃鬼,可以动态选择特征,不管特征是离散的还是连续的;它也可以先剪枝或后剪枝,以避免过度拟合;它集成了信息熵的计算,也可以不合理地引入随机因素;可以孤立存在,也可以做集成学习,还可以配合LR解决特征组合问题;对于小样本,正负样本学习不均匀,也可以支持在线数据流;由此产生的规则是高度可解释的。它是决策树。
每一个基本算法都像是一颗智慧的*敏*感*词*。这不是普通的锦上添花,而是惊天动地的原创思维。有时候还不如傻傻的回到过去,跟着大师原创的脚步走。这种原创的智慧,对未来长期的算法之路大有裨益。神经网络从*敏*感*词*到开花用了将近 50 年;贝叶斯也在开花的路上。谁会是下一个?