梦工厂侠义道官网

欢迎来到乐百家-乐百家      联系电话:010-62660053  电子邮件:[email protected]

English

新闻资讯>详情

为什么机器学习之路没有捷径可走?

 

原创: AI前线小组 AI前线昨天

点击此处添加图片?#24471;?#25991;字

作者|Matt Asay译者|Sambodhi编辑|DebraAI 前线导读:机器学习如火如荼。很多乐百家都想走捷径,试图实现“弯道超车?#34180;?#20294;是,机器学习之路是没有捷径可走的,也需要厚积薄发。妄图跳过这些阶段实现“弯道超车”无异于揠苗助长。所谓“弯道超车?#20445;?#22823;意是说中国有“后发优势?#20445;?#21487;以充分借鉴欧美的先进技术,不用斥巨资搞研发就能赶超欧美。这根本就是错误的思想,这种投机取巧的心理非常危险。要知道,像 Google 、Microsoft、Facebook 等高科技乐百家,每年研发费用都在 100 亿美元左右,美国之所以能够成为世界科技强国、科技大国,就因为他?#24039;?#24471;花钱搞研发,耐得住寂寞去搞研发。小编真心希望,国人能够摒弃“走捷径?#34180;ⅰ?#25220;近道?#34180;ⅰ?#24367;道超车”这种投机取消的心理,?#26009;?#24515;来,踏踏实?#31561;?#23398;习,搞研究,不要再出现“汉芯?#34180;ⅰ?#32418;芯”这样的事件了,只有这样,乐百家才会有未来。

更多干货内容请关注微信公众号“AI 前线?#20445;↖D:ai-front)

大数据仍然是少数人的游戏——只占 1%。不过据 O'Reilly 最新的调查数据,这一比例为 15%。这一调查显示,大多数乐百家(高达 85%)并没有掌握人工智能和机器学习的精髓。仅有 15%“复杂”的乐百家在生产中运行模型超过 5 年。重要的是,这类乐百家倾向于在模型偏差(model bias)和数据隐私等关键领域?#24230;?#26356;多的时间和精力,而新手们却还在苦苦寻找入门的途径。

AI 前线注:O'Reilly 的调查见《The State of Machine Learning Adoption in the Enterprise》(http://u6.gg/ewdrm)

不幸的是,对于那些希望通过抄近道(如使用 Google AutoML)或者通过有偿顾问来缩小数据科学差距的乐百家来说,答案似乎是:要掌握数据科学,需要时间,没有捷径可走。

聪明的乐百家专注于数据的深层次

首先,有一点需要注意的是,O'Reilly 的调查数据是来自一群自我选择的人:参加 O'Reilly 的活动或通过网络研?#21482;幔?#25110;其他方式与乐百家合作过的人们。这些人对数据科学非常?#34892;?#36259;,?#35789;?#20854;?#20889;?#22810;数人并没有真正利用过数据科学(如调查数据所示)。?#27426;?#23545;于那些沉迷于大数据体验的人来说,这是一个伟大的群体,那些被称为“复杂的”人们拥有在生产中运行模型超过五年以上的经验。

这次调查中,有一个有趣的数据就是这些人如何谈论自己。拥有丰富数据经验的乐百家将数据科学称为“数据科学?#34180;?#22914;图所示,那些还受困于 90 年代“数据挖掘”思维模式的人们更喜欢“分析师”这一称号。


点击此处添加图片?#24471;?#25991;字

无论乐百家如何称呼他们的数据专家,乐百家拥有人工智能和机器学习的经验越多,他们就越有可能依?#30340;?#37096;数据科学团队来构建乐百家的模型,如下图所示。


点击此处添加图片?#24471;?#25991;字

?#23548;?#19978;,没有人指望云机器学习服务(至少就目前来?#19981;?#27809;有),而那些拥有不到两年生产经验的乐百家则倾向于依靠外部顾问来构建机器学习模型。对这些乐百家来说,这可能是一个机会,可以无需在人员下血本就能够从数据科学获得好处,但这种做法着实很愚蠢。

使用数据的乐百家越复杂,他们的数据科学团队构建模型的能力就越高,并且能够评估项目成功的关键指标。在所有乐百家中,产品经理倾向于定义项目成功指标(36%),执行管理(29%)和数据科学团队(21%)也参与其中。

但对于经验丰富的乐百家来说,尽管产品经理仍然是被引用最多的(34%),但数据科学领头人(27%)与执行主管(28%)大致相?#34180;?/p>

经验最少的乐百家则倾向于寻求依靠高级管理层(31%),很少依靠他们的数据科学领头人(16%)。这些都不是问题,因为数据科学团队完全有能力?#39029;?#22914;何使用数据并衡?#31185;?#25104;功与否。

很多时候,是?#23454;?#20110;盲

这种依赖高级管理层来推动数据科学的做法,让人联想到一项调查(详见 http://u6.gg/ewc7t), 这项调查显示,高管们自称是数据驱动型的,但忽略了那些不支?#31181;本?#20915;定的数据(62% 的人承认自己就是这么做的)。

?#28304;?#25968;据缺乏悟性的乐百家,似乎口头上承认数据的重要性,但他们并不理解?#34892;?#25968;据科学的细微差别。他们缺乏必要的经验,而这种经验能够确保他们收集有意义的、没有偏见的数据见解。

当 Gartner 的 Andrew White 谈到理解机器学习模型以及如何在结果?#20449;?#32946;信任时,那些更为复杂的乐百家就会明白他这一言论背后的意义:

人工智能的新颖之处在于,人工智能能够重新划清界限:那些乐百家认为过于复杂、毫无规律的事务,现在可以用人工智能加以利用。正如乐百家预期的那样,人工智能可以处理比以往技术更复杂、需更多认知的工作。

只有在人工智能的自动化工作有意义的情况下,这一新的?#36136;?#25165;能在光天化日之下继续存在。如果这个太过复杂的黑盒子做出了人们无法理解的决策,并改变了结果,那么人们很可能会因此关掉黑盒子。因此,在某种程度上理解决策是非常重要的。

但是,理解或解?#36884;?#31574;与理解算法的工作方式是两码事。人们应该能够掌握输入、选择、权重和结果的原则,?#35789;顾?#27861;将这些原则组合到连乐百家都无法证明其过程的程度。如果结果和近似输入之间的差距过大,那么?#36816;?#27861;的信任很可能会失败,这就是人性。

AI 前线注:出处参见《The Difference between Decision Making and AI》(http://u6.gg/ewcCq)

要达到这种理解水平,并不是用一个顾问的价格就能够买到的。而且,它也不是现成的云机器学习。像 Google 的 AutoML 这样的工具宣称:“让拥有有限机器学习专?#24403;?#26223;的开发者能够根据业务需求去训练高质量的模型。”这听?#20808;?#30495;是太棒了!但是,要想从数据科学中得到好处,还是需要具备数据科学的经验。这并不仅仅是一个调整模型的问题,而是要知其然知其所以然。需要进行多次的反?#35789;?#39564;才能达到这种境界。

此外,正?#26041;?#34892;数据科学研究需要一种文化心态,而这种文化心态同样也来自经验。捷径,是不存在的!这意味着,那些?#26174;?#25237;资数据科学领域的乐百家,应?#27809;?#21457;现,与那些没有竞争优势的同行相比,自己占据领先地位,而这种优势很可能会?#20013;?#19979;去。

对于那些希望迎头赶上的乐百家而言,Gartner 分析师 Svetlana Sicular 的经典建议依然是正确的:“乐百家应着眼于内部。比神秘数据科学家更了解自己数据的人,其实就在乐百家内部。”只要乐百家能够明?#23376;?#31168;的数据科学家的养成是需要时间的,并为这些人提供学习和成长的空间,他们就不会寻求什么捷径。

原文链接:

https://www.infoworld.com/article/3297063/machine-learning/why-there-are-no-shortcuts-to-machine-learning.html?upd=1534978424699


更新时间:2018-09-16

相关文章

梦工厂侠义道官网