加入收藏 | 设为首页 | 会员中心 | 我要投稿三明站长网（https://www.0598zz.com/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 运营中心 > 网站设计 > 教程 > 正文

数据科学难在实践，有哪些弯路可以不走？

发布时间：2019-03-26 14:53:56 所属栏目：教程来源：大数据文摘

导读：副标题#e# 大数据文摘出品编译：李雷、栾红叶数据科学这一名词流行了这么长时间，对于很多企业来说仍然是熟悉而又陌生的词汇。对于积极向布局数据科学应用的企业来说，如何避免走弯路是始终追求的目标。 Blue Yonder，一个成立于2008年的大数据分析平台

为了防止或解决这些问题，我们必须接受DevOps模式的基本原则：

调整所有团队的目标，使他们在工作上不至于产生“冲突”，而是努力实现共同目标。
拆除部门之间的墙，建立跨职能团队
根据用户附加值的估量，改进决策方式并分配资源和功能

关于承诺

决策是任何公司成功的核心。因此，在引入数据科学时，，整个公司，包括所有的领导层和部门，都需要接受并重视。

运用数据科学进行自动化决策是价值流的重要组成部分。这很可能意味着，你需要改变既定的流程，重组团队，重新考虑公司的组织架构。

此外，想要成功执行这些措施，你需要获得必要的认可。每个人都需要知道为什么会有这些改变，并且还要支持这些决策。如果没有这种诚挚的诺言，自动化决策就不可能会成功执行。

相关链接：

https://www.datascience.com/blog/stakeholder-buy-in-for-data-science-product

反过来，你的数据科学工作必须着重于真正的附加值：一个是需要评估执行成本，包括技术债务成本、复杂性的累积、纠结的增加等;另一方面也要将其与改进后的预期收益进行比较。

数据科学从来不是一个以自我为目标的团队。

相关链接：https://www.datascience.com/blog/agile-data-science)

拆除数据科学的自我壁垒

DevOps的一个关键目标就是使团队团结以实现公司的共同目标，并且也要拆毁不同团队之间的壁垒。因为，如果把数据科学家分到一个单独的小组，安排在一个单独的房间里，这将会是一条通往失败的必经之路。

相关链接：

https://www.datascience.com/blog/centralized-data-science

相反，如果我们将数据科学家安排到一个跨职能的团队中，这将有助于构建一个端到端的完整决策系统，并有助于使其工作与公司目标保持一致。一旦每个部门都连接起来，数据科学家的工作就不会与其他部门相矛盾。

相反，这种决策系统的成功将变成公司的共同利益。以共同努力为特点的整体优化就能够实现一个共同目标，这将会取代以自我为中心和不一致的目标为特征的局部优化。

这个跨职能团队和其他的团队一样致力于相同的质量标准，在质量、弹性或稳健性方面没有任何妥协的余地。

相反，由于自动化决策具有较高的风险，我们需要采用更高的标准。同时，遵循“精益思想”的方法，创造一个既便宜又安全的实验环境。

用奥卡姆剃刀与贪婪作斗争

有一个解决问题的原则叫做奥卡姆剃刀(Occam’s razor)，也就是：“在相互竞争的假说中，应该选择假设最少的。”在数据科学领域，我们可以将这个原则重新表述为：

如果两个数据科学模型的结果是兼容的，那么就采用资源覆盖面较小的模型。

这条简单的规则为我们提供了如何建立数据科学模型的明确指导，解决了数据科学固有的贪婪性问题。

如果不测量生成值并在整个实现周期中应用此原则，您可能会面临成本激增，回报有限的问题。

相关链接：

https://www.datascience.com/blog/lessons-from-a-canceled-data-science-project

所以，必须要确保数据科学家致力于这一重要原则，因为与数据科学家对抗是非常困难的。他们有数据和专业知识来提出难以提出异议的论点。

创造一种尽可能简单的，但又失必要的复杂的效率文化。

这同样适用于不同数据源的使用。在数据安全领域，有一个“需要知道”(need to know)的原则，即只有需要访问的人才能访问数据。

也就是在数据科学的应用中，我们需要衡量所额外添加的数据源的价值，如果改进不够显著，无法证明额外数据的相关性，那么就要严格清除这些数据源。

结语

数据科学也就是用来支持和自动化决策的。对大多数公司来说，这变得比以往任何时候都重要。由于它是一个决策系统，所以必须成为业务流程的核心。这一事实带来了一系列严重的问题，特别是文化性质的问题，可能是灾难性的。

没有诚意的尝试往往会导致时间和金钱的浪费，同时还加重了数据科学作为麻烦制造者的声誉。

将数据科学进行合理的整合是一个不可忽视的转折点。用DevOps模式来接受数据科学，测量重要的KPIs，从实验中学习，并不断改进流程。这是一条真正成为数据驱动公司的道路。

作者Twitter： https://twitter.com/sebineubauer

相关报道：

https://www.datascience.com/blog/why-is-it-so-hard-to-put-data-science-in-production

【本文是51CTO专栏机构大数据文摘的原创译文，微信公众号“大数据文摘（ id: BigDataDigest）”】

大数据文摘二维码

戳这里，看该作者更多好文

【编辑推荐】

“老司机”划重点！搞定这120个真实面试问题，杀进数据科学圈
京东JDK在大数据平台的探索与研究
突发宕机，Kafka写入的数据如何保证不丢失？
为什么MySQL数据库要用B+树存储索引？
想伪装成资深程序员？知道这三个数据结构就够了

【责任编辑：赵宁宁 TEL：（010）68476606】
点赞 0

（编辑：三明站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3

相关内容

推荐文章

付诸seo实践行动，处理	分析内链seo优化，关键
PS怎么做空心字教你一	百度音乐播放模式怎么

站长推荐

热点阅读