随着社交媒体、移动化和云计算的发展,数据分析及相关的技术已经作为一款具有颠覆性的技术在这个数字时代占有了一席之地了。在过去的2015年中,我们已经看到对大数据的分析利用正被一股强大的利用新的数据技术以加强商务智能的推动力推动着由测试步入到了生产阶段。
Hadoop发行商Hortonworks公司的CTOScottGnau预测以下趋势将在2016年主导数据和分析市场领域:
获取一切可提供洞察分析价值的数据
在2016年,企业将着眼于从所有数据中获得洞察价值,Gnau表示说。“这不只是关于物联网,而是要通过互联网连接起凡是能够提供洞察分析价值的一切设备。”他说。“我们要超越传感器等相关设备,着眼于一切可以从中获取洞察价值数据信息的设备,这包括来自企业生产过程中的服务器日志、地理位置和来自互联网的所有数据。”
重视边缘数据
Gnau表示说,企业必须超越他们的数据中心并开始重视利用边缘的数据。他指出,数据流现在收集了来自许多传感器和服务器之外的设备上的数据,例如,来自海上的石油钻塔或太空中的卫星。这使得管理安全边界及提供跨系统的完整数据源有一个巨大的机会。Gnau表示说IoAT创建了一个新的模式,需要新的思维和新的数据管理系统,而这些解决方案将在2016年变得更加成熟,并进一步渗透到企业运用中去。
运动平台的数据
在2016年,业界将看到运动平台的数据运用的发展。“企业用户有对于更高级别的平台来处理许多设备协议,并把所有的数据流汇集到Hadoop的需要。”Gnau表示说。“该平台需要方便多协议语言的通信。运动数据和静态数据的整合是2016年中的一个大机会。”
大数据变得容易
有市场对于简化大数据技术方面有需要,并为此在所有层面都存在的机会:技术、消费等领域。Gnau表示说,在2016年,数据分析技术将明显有趋于走向简单化的趋势。“无论你是集群操作员、安全管理员或是数据分析员,每个人都希望Hadoop及其相关的大数据技术是简单直接的。”他说。“其处理过程就像一个单一的集成开发经验或减少设置或配置文件的数量一样将开始出现一刀切的模式。”
Hadoop用于关键任务工作负载
在2016年,Hadoop将被用于交付更多的关键任务工作负载,并超出“网络规模化”的企业,Gnau预测说。“虽然像雅虎、Spotify和TrueCar这样的公司都建立了相关的业务部门以便充分利用Hadoop,我们将看到更多的传统企业使用Hadoop,以便从其所管理的大量数据中提取有价值的见解,并提供新的关键业务分析应用程序,而这想要简单地实现,没有Hadoop是不可能的。”他说。
IT系统管理解决方案提供商Adaptiva公司创始人兼首席技术官迪帕克·库马尔预测:
今年,数据将得到限制
“对于数据的使用将变得更加规范,因为供应商将无法跟上数据的需求;而企业也将无法跟上成本的上涨。”库马尔说。“这样一来,企业将开始利用技术来监测这些数据。”
系统管理将因为大数据分析而变得智能化
“大数据分析解决方案的集成整合将继续功亏一篑,留下未连接的孤岛的数据的业务洞察力未被发现——而系统管理将介入帮助。”他说。
能源分析专家FirstFuel软件公司首席数据科学家巴德里·拉加表示,在2016年,我们将看到:
数据的运用更加民主普及化
拉加说,多亏了像亚马逊的MechanicalTurk这样的解决方案,使得企业和个人用户将能够更方便地收集来自世界各地的数据信息,而在此之前他们是无法实现的。“不仅能够更容易的找到数据,同时更加用户友好的工具的出现将使人们无需具备大量的数据知识就能进行数据信息分析,从而确保获得有意义的价值洞察了。”他说。
对于数据隐私权问题的关注将增加
欧洲最近制定了严格的数据监管规定,这意味着企业用户将需要针对如何解决数据安全问题制定相应的战略。”企业已经不能仅仅将数据隐私问题视为一个事后考虑的事项了,他们需要主动的解释他们是如何使用数据的,确保其符合企业所在地及全球的相关监管法律法规。”他说。
为了从数据分析中发掘数据价值见解,新的应用程序将被开发
拉加说,在2016年,企业和个人用户将进一步挖掘数据并进行分析,以提供个性化的引人入胜的跨行业的数据体验,包括能源,体育,社会公益和音乐领域。“比如,人们将能够使用数据以根据自己的个人喜好来改变歌曲。”他说。
商业智能和分析企业Tableau软件公司的产品营销总监丹·高根预测了2016年大数据领域的一系列发展趋势,包括:
NoSQL获得发展
高根说,2016年,NoSQL数据库将成为领先的企业IT环境,作为无模式的数据库概念的优势会变得更加明显。“没有比从Gartner的运行数据库管理系统魔力象限能够看到更加令人震惊的显示画面了。”而这在过去,甲骨文,IBM,微软和SAP是占主导地位的。“相比之下,在最近的魔力象限中,我们看到了研发NoSQL的公司,包括MongoDB、DataStax、Redis实验室、MarkLogic和亚马逊网络服务(其DynamoDB产品),数量上超过了Gartner的领导者象限报告的传统数据库供应商。
ApacheSpark进一步用于大数据分析
ApacheSpark已经从Hadoop系统的一个组件成为了不少企业大数据平台的选择了。“较之Hadoop,Spark为数据处理速度带来了大幅的提升,并且已经成为目前规模最大的大数据开源项目了,根据Spark项目的发起者和Databricks的联合创始人马泰扎哈里亚介绍。”高根说。“我们将看到越来越多的企业使用案例Spark,例如,在高盛集团,Spark已成为大数据分析的’通用语言’。”
大数据进一步成熟
Hadoop被添加到了企业标准。高根说,企业利用Hadoop的能力将在2016年变得成熟。“作为其进一步成熟的证据,Hadoop的不断发展的趋势将使其成为企业IT规划的核心部分,我们将看到围绕着诸如安全这样的企业系统组件投资的增长。”他说。“ApacheSentry项目为实施细粒度提供了一个系统,基于角色的授权将数据和元数据存储在Hadoop集群上。这些都是客户希望从他们的企业级RDBMS平台和现在的新兴大数据技术能够获得的前沿的能力类型,从而进一步消除了企业采用的一大障碍。”
大数据获得快速发展,并进一步促进Hadoop的采用
高根说,2016年,我们将看到Hadoop获得传统上一直与数据仓库相关的性能。“随着Hadoop获得更多对于企业用户的吸引力,我们将看到来自最终用户对于同样快速的数据探索的能力的不断增长的需求,这与他们对于传统的数据仓库的期望是一样的。”他说。“为了满足最终用户的需求,我们看到越来越多地对于诸如ClouderaImpala、AtScale、ActianVector和JethroData等新技术的采用——这进一步模糊了”传统”BI和“大数据”之间的概念。
帮助最终用户发现所有形式的数据增长的选择数量进一步增加
自助服务的数据准备工具正在爆炸式的普及。高根说,部分的原因是由于转向企业-用户生成的数据发现工具的采用,如Tableau,减少了分析数据的时间。“企业用户现在希望也能够减少数据分析的准备时间和复杂度,尤其重要的是在处理各种数据类型和格式时。”他说。”我们已经看到了这一领域的创新,包括从专注于最终用户准备的大数据公司如Alteryx、Trifacta、Paxata和Lavastorm,同时还看到有长期的ETL领域的领军企业如Informatica公司对于其REV产品进行的大量的投资。”
MPP数据仓库在云中的增长正在升温
高根说,数据仓库的“死亡”已经被炒作了一段时间了,而在这一细分市场的增长已经放缓也已经不是什么秘密了。“但我们现在将看到这项技术应用程序转移到云计算的一个重大转变,在这一个领域亚马逊凭借其在Redshift的按需云数据仓库占据了主导。”他说。“Redshift是AWS增长最快的业务,但其现在需要面临来自谷歌BigQuery、以及来自提供长期数据仓库的强势竞争者如微软产品(AzureSQL数据仓库)和Teradata的竞争、还有来自诸如2015年Strata+HadoopWorld获胜者初创公司Snowflake的竞争。分析人士认为,那些已经采用Hadoop的企业中,有90%的企业还会继续保持他们的数据仓库,通过这些新的云服务产品,这些客户可以相对于存储在他们的Hadoop数据湖的更大量的数据信息,能够动态地在数据仓库中向上或向下扩展的存储和计算资源。
融合收敛的流行:物联网、云计算和大数据结合到了一起
该技术仍处于初期阶段,但来自物联网设备上的数据将成为“杀手级应用”,成为推动云和PB级数据爆炸式增长的驱动因素之一,高根说。“出于这个原因,我们将看到了领先的云服务和数据公司,如谷歌、亚马逊网络服务和微软将把物联网服务带入我们的生活,使得数据可以无缝地迁移到他们的基于云的分析引擎。”他说。
数据仓库和大数据分析专家企业Teradata公司的企业系统总经理丹·格雷厄姆表达了他对于2016年的预测:
企业将重新设置Hadoop
格雷厄姆认为,在2016年,我们将看到企业汲取他们从以往的部署到重新构建他们的方法的相关经验教训。“随着Hadoop和相关开源技术超越了纯粹的知识收集,以及炒作的消退,企业将重新设置(但不会放弃)自己的Hadoop部署,以解决他们所学到的教训——特别是围绕管理,数据集成,安全性和可靠性等领域”他说。
关于数据分析算法的探讨将进入企业高层会议
在数据采集和数据的托管分析的制备过程中,相关的算法将升温。”他说。“这样一来,企业的CEO和投资者们将开始探讨深层的数据分析为核心业务的目标。”
数据湖泊最终会发现一些杀手级应用程序
受数据量和成本因素的影响,数据湖泊将成为原始物联网数据最常见的存储库,格雷厄姆说。”物联网M2M数据的规模大小将将超过几个数量级运行内存容量,从而推动了低存储成本的数据湖技术。”他说。
在数据中心捕获的物联网数据的价值将迅速被新的交易数据的价值所削弱
“缺乏货币化的数据字段,大多数传感器的数据将在数小时,几天或几周的时间后变为低价值,因为这些数据信息将被相同的传感器的更新的数据集合所替换。”格雷厄姆说。“架构和系统将被迫以弥补这一数据价值的快速下降,以应付数据存储和处理成本。”