人工智能PM系列文章(二)PM要学会使用数据

优采云 发布时间: 2020-08-17 08:40

  人工智能PM系列文章(二)PM要学会使用数据

  

  本期和你们说说产品总监在机器学习领域该怎么理解数据、使用数据、以及面对大数据的*敏*感*词*须要具备的一些基本素养。

  机器学习三要素:

  业内公认的机器学习三大要素:算法、计算能力、数据。

  1、算法:随着Google的Tensorflow的诞生,将算法迅速应用到产品中的门槛大幅度增加。使用Tensorflow可以使应用型研究者将看法迅速运用到产品中,也可以使学术性研究者更直接地彼此分享代码,从而提升科研产出率。因此,这个趋势就类似当初做网站设计还须要编撰复杂的代码,而明天连一个不会编程的人就会作出精致的网站了。

  

  通过TensorBoard查看即时数据的情况

  2、计算能力:大公司会通过强悍的云计算能力提供全行业的人工智能估算能力,而小公司无需搭建自己的估算平台,直接使用大公司提供的现成的云平台,即实现了可以用极少的硬件投入就可以进行深度学习产品的开发。因此在这方面公司其实也不是公司或产品可以构建门槛的方向。

  3、数据:数据在机器学习领域领域其实早已弄成了兵家必争之地,而且优质的数据可以帮助企业快速构建门槛。好的数据一般要比好的算法更重要,而且数据本身的属性决定了应用的机器学习算法是否合适。假设你的数据集够大,那么不管你使用哪种算法可能对分类性能都没很大影响。

  如何理解数据

  数据对于机器学习的重要性虽然始于于机器学习的本质,在专家系统(expert system, ES)作为人工智能重要领域并广泛应用的年代,人们早已发觉专家系统的缺陷。

  计算机难以在个别领域用尽全世界所有该领域专家的经验和智慧,且好多领域的专家也很难总结出处理问题的缘由和规律,况且对于企业来说在好多领域中通过创造专家系统解决问题的ROI也并不理想,因此出现了机器学习(Machine Learning, ML)。

  如果说专家系统是一种*敏*感*词*式的填鸭式的教学方法,而机器学习更象一种在佛寺比丘尼传授师父的形式,高僧对于武功和学佛的提高一般是只可意会不能言传的,因此一般要依赖“悟性”。徒弟只能通过常年的实践-碰壁-再实践提高自身武功及慧根。机器学习就是凭着这样一种内在逻辑诞生的,尤其在个别判定模式相对复杂而且结果明晰的领域,机器比人强的事实早已被广泛证明,例如商品推荐、法律文书整理、投资策略的推荐等等。

  实际上机器学习早已成为数据剖析技术的重要创新来源,而几乎所有学科都要面对大量的数据剖析任务,但是机器学习只是数据挖掘的工具中的一种。

  产品总监在设计产品的时侯不仅要考虑到怎样将机器学习借助到极至,还要解决数据剖析过程中遇见的一些其他问题例如数据储存、数据清洗、数据转换等一系列关于数据*敏*感*词*的问题。

  毕竟产品总监不是算法工程师,除了关注算法和模型训练以外还要协调资源将数据如何来的、哪些数据须要存、存多久、以及数据质量遇见问题是是否须要数据*敏*感*词*工具去建立等等。现实项目中没有那么多理想情况,而且涉及到跨团队的协作。

  因此这就要求产品总监应理解行业数据标准,对行业标准数据类型、数据分布(数据在哪)、数据量预估、以及每种数据背后的涵义了如指掌。只有理解了这种数据的维度,才能进一步指导产品总监去获取行业优质数据,并判定是否须要搭建大数据构架进行对数据的处理。下面举个机器学习和大数据构架结合的案例:

  Eagle是eBay开源的分布式实时安全监控方案。通过离线训练模型和实时流引擎监控,可以立刻检测出对敏感数据的访问或恶意的操作,并立刻采取应对举措。

  Eagle须要被布署在多个小型Hadoop集群上,这些机群拥有数百PB数据量。如果你是这个产品的产品总监你起码要考虑到产品的这三个层面:视觉诠释、数据处理剖析、采集和储存数据。

  

  Eagle

  另外,许多传统行业的数据积累在规范程度和流转效率上远未达到可充分发挥人工智能技术潜能的程度,产品总监要辨识这方面的风险,产品的攻占市场先机尚且重要,但过早的步入市场也可能有巨大的投资风险。

  产品总监该怎么借助数据设计机器学习产品

  1、当需求确定后,产品总监应当判定是否有质量足够好的数据作为训练集来完成对模型的训练,数据的质量决定了模型的训练疗效能够满足用户需求,甚至决定了产品总监对产品设定的目标是否还能实现。

  产品总监应当明晰所设计的功能目标是否明晰且容易判别和量化,越明晰就越容易被手动标记。越容易被手动标记就越容易帮助机器快速进行学习和建模,即功能的实现成本较低且比较容易实现较好的疗效。

  例如在个别领域中就天然带有闭环的、自动标明的数据:基于互联网平台的广告平台可以手动依据用户在页面上的点击动作及后续操作,采集到第一手转化率数据,而这个转化率数据反过来又可作为关键特点,帮助AI系统进一步学习。这种从应用本身搜集数据(训练集不需要外部采集),再用数据训练模型,用模型提升应用性能(容易判别和容易量化的性能目标)的闭环模式愈发高效。

  2、在设计机器学习产品的时侯产品总监应当转变传统产品设计的思路和逻辑,过去产品总监的设计逻辑是画原型、PRD文档交付研制,研发会根据原型设计的去开发,页面都是设计好了的,页面上有几个按键,每个按键的交互反馈是哪些,每种用户的数据、页面权限都是设计好的。

  而在机器学习产品设计中,可能就没那么多事先才能确定好的事情了。比如产品的目标是剖析造成某商场销售业绩提高的最重要的诱因,并按照每晚采集到的数据输入到训练好的模型中预测将要到来的一周的销售业绩。

  那么产品总监在设计这样的数据剖析功能的时侯是难以在训练集都没输入并训练的时侯给出的原型的,整个页面的元素大部分是又训练下来的结果决定的。而最终该功能能够成功不是依赖页面开发工程师,而很大程度上依赖于算法团队是否能获得足够优质的数据并训练比较精准的模型进行预测剖析。这也是为何须要产品总监和算法团队进行充分的交流,因为机器学习产品的设计常常当目标定好后,其他的工作不是人说的算,而是数据和算法说的算,一味生硬的设计产品只能使技术团队陷于挣扎。

  3、测试算法,产品总监是端到端负责人,一个功能的算法做下来了,但实际疗效(或准确度)是须要产品总监亲自去检验的,这除了须要大量生产数据的检测,而且有些时侯是须要用户认可才行。

  就拿里面那种预测商场业绩的反例来说,产品最终要实现的是帮助商场管理者才能有的放矢的进行管理决策,那么就须要产品总监实际参与到预测结果和实际疗效的比对中,只有获得了用户的认可,才是产品设计的完满。而倘若疗效不好,则须要产品总监想办法获得更多维度的数据进行训练,必要的时侯须要聘请行业专家参与到算法调优中。

  最后,本文只是针对数据问题讨论的冰山一角,篇幅有限也只能抛砖引玉式的提出一些问题和观点。更多有关数据*敏*感*词*的内容将会在后续系列文章中详尽描述。希望你能持续关注我的人工智能产品总监系列文章。

  作者:特里,头条号:“人工智能产品设计”。毕业于University of Melbourne,人工智能领域产品总监,专注于AI产品设计、大数据剖析、AI技术商用化研究和实践。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线