加入收藏 | 设为首页 | 会员中心 | 我要投稿 三明站长网 (https://www.0598zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

数据科学难在实践,有哪些弯路可以不走?

发布时间:2019-03-26 14:53:56 所属栏目:教程 来源:大数据文摘
导读:副标题#e# 大数据文摘出品 编译:李雷、栾红叶 数据科学这一名词流行了这么长时间,对于很多企业来说仍然是熟悉而又陌生的词汇。 对于积极向布局数据科学应用的企业来说,如何避免走弯路是始终追求的目标。 Blue Yonder,一个成立于2008年的大数据分析平台

为了防止或解决这些问题,我们必须接受DevOps模式的基本原则:

  • 调整所有团队的目标,使他们在工作上不至于产生“冲突”,而是努力实现共同目标。
  • 拆除部门之间的墙,建立跨职能团队
  • 根据用户附加值的估量,改进决策方式并分配资源和功能

关于承诺

决策是任何公司成功的核心。因此,在引入数据科学时,,整个公司,包括所有的领导层和部门,都需要接受并重视。

运用数据科学进行自动化决策是价值流的重要组成部分。这很可能意味着,你需要改变既定的流程,重组团队,重新考虑公司的组织架构。

此外,想要成功执行这些措施,你需要获得必要的认可。每个人都需要知道为什么会有这些改变,并且还要支持这些决策。如果没有这种诚挚的诺言,自动化决策就不可能会成功执行。

相关链接:

https://www.datascience.com/blog/stakeholder-buy-in-for-data-science-product

反过来,你的数据科学工作必须着重于真正的附加值:一个是需要评估执行成本,包括技术债务成本、复杂性的累积、纠结的增加等;另一方面也要将其与改进后的预期收益进行比较。

数据科学从来不是一个以自我为目标的团队。

相关链接:https://www.datascience.com/blog/agile-data-science)

拆除数据科学的自我壁垒

DevOps的一个关键目标就是使团队团结以实现公司的共同目标,并且也要拆毁不同团队之间的壁垒。因为,如果把数据科学家分到一个单独的小组,安排在一个单独的房间里,这将会是一条通往失败的必经之路。

相关链接:

https://www.datascience.com/blog/centralized-data-science

相反,如果我们将数据科学家安排到一个跨职能的团队中,这将有助于构建一个端到端的完整决策系统,并有助于使其工作与公司目标保持一致。一旦每个部门都连接起来,数据科学家的工作就不会与其他部门相矛盾。

相反,这种决策系统的成功将变成公司的共同利益。以共同努力为特点的整体优化就能够实现一个共同目标,这将会取代以自我为中心和不一致的目标为特征的局部优化。

这个跨职能团队和其他的团队一样致力于相同的质量标准,在质量、弹性或稳健性方面没有任何妥协的余地。

相反,由于自动化决策具有较高的风险,我们需要采用更高的标准。同时,遵循“精益思想”的方法,创造一个既便宜又安全的实验环境。

用奥卡姆剃刀与贪婪作斗争

有一个解决问题的原则叫做奥卡姆剃刀(Occam’s razor),也就是:“在相互竞争的假说中,应该选择假设最少的。”在数据科学领域,我们可以将这个原则重新表述为:

如果两个数据科学模型的结果是兼容的,那么就采用资源覆盖面较小的模型。

这条简单的规则为我们提供了如何建立数据科学模型的明确指导,解决了数据科学固有的贪婪性问题。

如果不测量生成值并在整个实现周期中应用此原则,您可能会面临成本激增,回报有限的问题。

相关链接:

https://www.datascience.com/blog/lessons-from-a-canceled-data-science-project

所以,必须要确保数据科学家致力于这一重要原则,因为与数据科学家对抗是非常困难的。他们有数据和专业知识来提出难以提出异议的论点。

创造一种尽可能简单的,但又失必要的复杂的效率文化。

这同样适用于不同数据源的使用。在数据安全领域,有一个“需要知道”(need to know)的原则,即只有需要访问的人才能访问数据。

也就是在数据科学的应用中,我们需要衡量所额外添加的数据源的价值,如果改进不够显著,无法证明额外数据的相关性,那么就要严格清除这些数据源。

结语

数据科学也就是用来支持和自动化决策的。对大多数公司来说,这变得比以往任何时候都重要。由于它是一个决策系统,所以必须成为业务流程的核心。这一事实带来了一系列严重的问题,特别是文化性质的问题,可能是灾难性的。

没有诚意的尝试往往会导致时间和金钱的浪费,同时还加重了数据科学作为麻烦制造者的声誉。

将数据科学进行合理的整合是一个不可忽视的转折点。用DevOps模式来接受数据科学,测量重要的KPIs,从实验中学习,并不断改进流程。这是一条真正成为数据驱动公司的道路。

作者Twitter: https://twitter.com/sebineubauer

相关报道:

https://www.datascience.com/blog/why-is-it-so-hard-to-put-data-science-in-production

【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】

     大数据文摘二维码

戳这里,看该作者更多好文

【编辑推荐】

  1. “老司机”划重点!搞定这120个真实面试问题,杀进数据科学圈
  2. 京东JDK在大数据平台的探索与研究
  3. 突发宕机,Kafka写入的数据如何保证不丢失?
  4. 为什么MySQL数据库要用B+树存储索引?
  5. 想伪装成资深程序员?知道这三个数据结构就够了
【责任编辑:赵宁宁 TEL:(010)68476606】
点赞 0

(编辑:三明站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读