大数据风起云涌,走红IT界
IT业从来不缺乏新概念、新名词、新技术,更新之快、推出之猛,令人目不暇接。
继云计算、社交网络之后,如今大数据(Big Data)再度走火,风起云涌,似乎成为2012 年信息技术领域最时髦的词汇。
Oracle、SAP、IBM 、微软等IT巨鳄,像是寻找到了新的金矿,开始全力挖掘大数据,多方位推广大数据理念,尤其是SAP的HANA和Oracle的Exalytics更是卖力,争抢“头烫汤”。而众多中小IT厂商也跟着蜂拥而至,以分得大数据市场一杯羹。
何为大数据呢?根据IDC的定义,大数据是指为了更经济更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,人们并用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
而相比大数据的突然兴起,以前以商业智能分析而著称的BI开发商却是难掩尴尬和失落的境况,甚至被逼退到边角。近年来,大数据给BI(商业智能分析系统)带来了重大的冲击,发展步伐受到较大拖累。有人大胆预测,未来十年,有关大数据的商务智能分析将引领管理信息化的发展。
从各种专业报道、分析,我们可以看出,大数据呈现3种特性:Volume(数据量)、Velocity(处理速度)、Variety(数据种类)。Volume指的是数据量庞大,如今有许多企业已经面临单日数据量以数十、数百TB(万亿字节,1TB=1024GB)的速度增加,而总数据量也达到了PB(Petabyte)等级,这样的数据量已让传统的数据库难以处理;Velocity是指企业数据增加的速度越来越快,诸如移动化、社交网络的广泛应用,使得数据增加的速度比传统的企业应用程式来得快很多,一旦数据增生速度越快,数据处理、分析的速度也就得跟上;而Variety则是指数据的多样性,时下上互联网不是只看看资讯,同时也不断在产出数据:上传照片、上传视频、发微博,另一方面,IT遍及工作生活中的各个角落,各种各样的传感器、监控器也时刻不断产生各种机器资讯,数据的型式已日趋复杂、多样了。这就催生了大数据技术的强烈需求。
从一些主流厂家的产品介绍,我们可以发现大数据与BI一个主要区别在于:与传统基于事务的数据仓库系统相比较,其能在BI的基础上进行更大容量数据和非机构化数据处理,大数据分析不仅关注结构化的历史数据,它们更倾向去对Web、社交网络、RFID传感器等非结构化海量数据进行更好地分析,整体相比BI而言,大数据是一个完美的大提升。像Facebook、Twitter这样面临数据量大爆炸的网路公司,已开始用Hadoop、NoSQL等新兴技术来解决海量信息问题,并取得了一定成效。
大数据当立,BI当下?
可见,如何解决日渐紧迫的大数据处理成了企业管理信息化、现代化的必然需求。不过,国内的大数据领域到底有多少活跃迹象?大数据真的有如一些厂商所描绘中的那么强大、好用,成为每个企业所必须的吗?
在一片叫好声中,部分专家和业内人士则显得小心谨慎,甚至有不乏非议。一些专家认为,除了大量的研讨会,还有各类公司宣称进军大数据领域的雄心,其实际进展至今难见成效。许多企业CIO认为,国内能利用大数据背后产业价值的行业主要集中在金融、电信、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据价值为时尚早,大数据在企业的运用并不是说只要开放了数据、运用一些技术就可以轻易地发现“金矿”。目前国内大数据应用似乎正在呈现这样的状态:投资人活跃,技术和服务供应商热心,数字媒体高调,而大量应用企业迷惑。
一些专家认为,从结果来看,对于大数据的质疑并没有比BI少,同样遭遇了“还差一公里”的尴尬。有人评价“大数据是个相对的概念,是在既有的方案上包装了一下,其处理方式是新瓶装旧酒,只不过更时髦。”海量数据时代的数据应用并没有给多少企业数字运算带来革命性的变化,在 MapReduce 、Hadoop(两者都是一种编程模型,用于大规模数据集的并行运算)出现之前,也有企业能够轻松的对数据进行大规模并行计算了,而 NoSQL 的出现也只是为处理数据的方式带来了更多可能性罢了,也并没有革命性的质的飞跃。
从现在业界一些公司拿出来的大数据应用实例来看,依然只是在利用传统意义上的数据分析与BI,只是巧妙地把这笔帐都记在了大数据上了。一家开发商说利用其大数据技术,一个电子商务网站能知道“什么地方的人买东西最疯狂”或是“什么型号手机最好卖”,这就是大数据分析的结果。对此有专家反驳道“难道同样基于数据仓库系统的BI分析出来的结果和这个大数据出来的结果会有不同么?的确从某些大数据应用中会挖掘出新的价值,但这个价值只是附加价值,没有理由去夸大它,更没有理由去无端的想象。大数据是机会,但只是少数人的机会,更多是巨头们的商业谋略。”厦门一位电子公司CIO也认为,“一些企业所需要的数据内容和运用,其实都可通过开源社区就能获取,传统列式数据也能能很好地处理大数据。参加各种大佬们口沫横飞的会议,还不如和工程师聊聊可以运用什么更实用的工具来具体操练、发挥一下。”
以推广大数据颇为卖力的EMC公司为例,其 Greenplum核心产品线本身而言并没有太多的变化——仍然分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器的MPP(大规模并行处理)分布式可扩展架构。因此站在厂商的角度,如果没有更多的新颖有意义的东西,过多地投入资源来大量宣传推广显然不划算,防止最后客户不买账。确实,海量增长的非结构化、半结构化数据中确实有值得更深挖掘的价值,但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样,业务的变革也要以渐进式为主,比较稳妥。
什么惹眼就挂什么标签,什么有好处就往哪钻,这就是如今商家通行的招数。而面对“大数据”的流行,不少传统BI厂商最后也禁不住“诱惑”,纷纷摇头一变,都套上了“大数据”的外套,令人感叹。
可以说,当前IT厂商心态日趋浮躁,急功近利,没有真正去认真研究客户需求、认真研究企业管理,而是还停留在炒作概念甚至捞一把就走的阶段。今天你一个SOA,明天我一个EAI,今天你来网格计算,我明天来个云计算,你一个BI,我来个大数据,等等,都是各自从各自的技术特点去阐述各自软件的概念与应用,引导用户投怀送抱,但没有几家能说清楚自己软件服务到底是个什么好东西,能给企业带来什么简捷实用的好处?性价比是否最优?反而五花八门的概念、定义,令客户单位眼花缭乱,不知所措。在选择的时候看看这个也有点道理,那个讲的也好象对,但没有哪个厂商的系统真正令客户深感满意。
再回来说说大数据与BI。可以说,大数据与BI二者之间存在着深厚的天然联系,一对孪生兄弟,它们办公决策工作本身都是一种团队协作和协调,尤其是在数据挖掘和数据分析层面,并没多大的差别。同时,传统BI与大数据的关系,并不是互相替代、排斥的关系,它们犹如人的左脑和右脑,分工不同,传统BI以处理结构化信息为主,大数据以处理非结构化、半结构化信息为重,它们相互依存、相互补充、共为一体,组成企业完整的信息化大脑。
大数据的创新性、先进性与前瞻性,不容否定,值得肯定,但当有人提出“大数据当立,BI当下”之论,就显得过分武断、偏激了。在如今细分制胜的时代,功能并不是越多越好,功能过多反而显得累赘,增加无谓费用,因而故弄玄虚、故作高深地过分炒作概念,反而有失本质、主次。Gartner研究公司的BI分析师RitaSallam表示,“大数据将让BI更有价值和更有利于业务发展。我们总是会需要看看过去的数据,当你拥有大数据时,你更应该这样做。BI并不会消失,它通过大数据被加强了。在一定时期内,大数据还难于取代传统BI工具。”
如今各种关于大数据与BI软件谁优谁劣观点的交锋仍不断泛起,但不管如何,应明白的是,客户单位、消费者真正需要的不是概念,需要不是优劣是非的争论,他们需要的是实实在在的应用软件,需要的是解决问题的有效方法,需要的是软件恰到好处的功能。
而对应用企业而言,它们必须认真权衡,到底企业利用大数据后能给企业带来了多少额外增加的价值?这种增加的价值是否能让企业的投入有一个较好的收获?而且更为重要的一点是,是否只要使用大数据就一定能够给企业带来以前不可能实现的价值?这些都需要应用企业好好重点考虑了。( 文/ 厦门智者恒通 吴勇毅)