在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,下面是对上述问题的纵观。
1.更多的数据科学家将开始使用深度学习
纵观2016年深度学习领域所取得的主要成就,与那些让深度学习变得更加简单的工具发布,以及直接让现有大数据平台和架构整合在一起的工具。显而易见,数据科学家在2017年已不得不选择深度学习,因为通过它可实现的价值已经愈来愈多。看看时间序列和事件数据(包括异常检测),物联网以及传感器相关的数据分析,语音识别,以及文本挖掘推荐,深度学习的用例还有很多。
2.对数据工程相关技能的需求将会持续上升
《哈佛商业评论》杂志在2012年的时候将数据科学家称为“21世纪最性感的职业”,但愿在2017年里对数据科学家的需求会延续下去,但是人才需求将会主要集中在数据工程师(远多于数据科学家)。许多公司在寻找会编程的数据科学家,从而将会需要更多的可以接触生产系统的数据科学家。这些是独一无二的技能,他们也同样会获得除了薪水之外的快乐。
3.越来越多的公司将会在云端使用托管服务
一项最新的O’Reilly调查显示,一个组织在云端感受完大数据之后,往往会催生出更多类似的大数据服务。
现如今很多公司都接触了能够提供存储、数据处理、可视化、分析以及人工智能的托管服务。虽然业内已存在很多可以解决这些问题的开源组件,但专有的托管服务逐渐被证明成为了大众的选择。因为这些工具将会被服务提供商所管理,机构内部的数据专业人士将能够关注手头的问题而不用考虑需要使用什么样的工具——不过他们得学习如何设计、搭建以及管理在云端运行的应用。
4.并不是所有的东西都会迁移到公共云
遗留系统、敏感的数据、安全、合规以及隐私问题将会需要一个混合的架构。这里同样会存在使用定制甚至是私有云的应用,就像为工业物联网设计的Predix或者AWS的CIA。许多公司将会需要能够应对复杂情况的解决方案架构。
5.数据的民主化:任务因工作更简单而简化
提供自助分析的新工具使得许多数据分析的任务变的更加简单。有一些甚至都不需要编程,同时另外一些工具使得在一个工作流下融合代码、图像和文本变得更加简单。这些并不是统计学家或者数据极客的授权用户们做着常规的数据分析,让数据专家们有了更多的时间去处理复杂的项目或者去优化端到端的传输途径和应用。
在这几年里这一切都在发生,我们发现许多使得先进的分析更加民主化的工具正在兴起(譬如微软的Azure),能够支持对大规模的流数据资源进行采集,还使得先进的机器学习能够得到发展和应用(像谷歌的Cloud Platform和亚马逊的Machine Learning)。
6.储存和计算的分离将会加速
加州大学伯克利分校的AMPlab项目在去年十一月已经完成,但是在Apache Spark和Alluxio背后的团队并不是唯一一个强调存储和计算相分离。正如上面所说的那样,存储在云端的流行项目甚至一些最新的深度学习架构使得这个典范更加突出。
7.笔记本和工作流工具会的得到持续的发展
Jupyter的笔记本因为具有能够提供可以解决包括数据清洗、转换、数字化的仿真、统计学模型和深度学习在内许多问题的多元化架构而被数据科学家们使用和重组。(譬如O’Reilly使用Jupyter笔记本作为Oriole Interactive Tutorials的基础)。它对数据小组来说十分有用,因为在notebook里能够创造和分享包含动态代码、公式、可视化和说明性文本在内的文件。通过将Jupyter和Spark连接,你将能够通过简单接口使用Spark编写Python代码而不是使用Linus的命令输入或是Spark shell。
数据专家们将会一直使用多样化的工具。Beaker笔记本能够支持很多编程语言,现在还有将Spark社区作为目标的复合笔记本。(Spark Notebook、Apache Zeppelin及Databricks Cloud)。但并不是所有的数据专家都使用笔记本:因为笔记本不能适应对复杂数据渠道的管理,工作流工具更加适合这点。数据工程师门喜欢软件开发者使用的工具。随着深度学习和其他新技术进入数据科学和大数据社区,我们估计现存的工具将会得到进一步的发展和优化。
8.数据社区将会进一步找出方法来解决像隐私和伦理道德一样的问题。
由于机器学习的普及化、数据资源的多样化以及算法的复杂化,使得透明度变得越来越难实现。在数据应用中实现公平变得比以往更加具有挑战性。纵观2017年我们希望能够看到涉及以下几个方面的国家政策的讨论:对偏见测试的最佳实践以及偏向的理论导致偏向结果的意识在不断提升。
关于作者:Ben Lorica 是O’Reilly 媒体公司的首席数据科学家。