举世闻名的Wal-Mart,藉由经年累月的结帐资料分析,缔造了「尿布与啤酒」的惊奇故事,大家这才乍然醒悟,原来看似风马牛不相及的事物,也蕴藏着不为人知的致胜秘诀,显见商业分析之重要性;但「尿布与啤酒」毕竟属于事后分析,Wal-Mart现在更想做的,已经不仅止于此。
尽管「巨量资料」或「海量资料」等词汇,几乎已经密集延烧了一整年,但Big Data议题不仅未见丝毫疲态,这把火反倒愈烧愈旺,成为企业蓄积智慧与洞察力的绝佳宝库,许多高阶主管,都乐此不疲从巨量资料中探索致胜秘诀,据此建立竞争优势。放大
Wal-Mart过去为人乐道的尿布与啤酒传奇,已成为「传统」。新的商业分析技术正在兴起,可以挖掘出过去显为人知的讯息。
巨量资料分析架构示意图
乃至于全球最大的软件公司微软(Microsoft),也将巨量资料与行动应用、云端运算、企业生产力(含企业社群)等另三项议题,列为「主导未来十年产业变化」的四大趋势之一;其认为多年以来,商业智慧一直扮演重要角色,如今随着互联装置及应用程序的大量运用,引发爆炸性的资料增长,遂使得商业智慧愈趋朝向巨量资料靠拢,成为企业赖以洞烛机先的关键利器。
值得一提的,随着巨量资料、商业智慧彼此间擦撞火苗,也让现今的商业分析内涵,出现了有别以往重大转变;在过去,商业分析的重点,仅在于冰山之上已知可见的结构化数据,偏向事后分析型态,然而今后,其重点已经转向为冰山之下的未知信息,且泰半属于大家从前鲜少进行分析的非结构化资料型态。
Wal-Mart过去为人津津乐道的尿布与啤酒传奇,至此已可归类为「传统」的商业分析,展望未来,企业倘若只是做到这一步,并不足以掌握关键契机;所以Wal-Mart早就不以此为自满,而是主动分析顾客搜寻商品的行为,以及用户透过搜寻引擎寻找到Wal-Mart网站的关键字,利用这些关键词的分析结果发掘顾客需求,以规划下一季商品的促销策略。
不仅如此,Wal-Mart还瞄准了当今最炙手可热的社群网站,期望从顾客在Facebook、Twitter等网站上对商品的讨论,早一步掌握潜在消费需求,终至创造「比父亲更早知道女儿怀孕」的另一惊奇故事。
面临新挑战 企业亟需培育新智能
即便许多企业,所属业态与Wal-Mart大相迳庭,生财模式也与Wal-Mart多所歧异,但可以肯定的是,随着全球经济情势与商业环境的改变,未来企业规模无论是大或小、从业资历不管是深或浅,都无可避免一定会面临诸多新挑战。
这些挑战,包括了商品的竞争与价格压力渐增、新市场的需求扩大、人力资源管理难度攀升,以及企业永续性与法规遵循的要求愈趋严格;在此前提下,企业别无他法,势必得力求推动更多的创新,加快技术研发的速度,并设法改善客户服务与盈利能力。
意欲将前述条件逐一付诸实践,对于绝大多数企业而言,其实并不容易,因而导致大部分公司抗御经济情势与商业环境变动的能力,都显得有所不足,为业务发展埋下不确定因子;于是乎,现今不管身处哪一国度、哪一垂直产业领域的企业用户,最殷切的期盼,便是寻求一个好的解决方案,借以帮助他们节省金钱、提高生产力、带动业绩的成长。
以上三个愿望,看似平凡无奇,理应不难达成,实则不然,主因在于当前世局变迁速度加快,连带造成各项新挑战接踵而至,使得企业很难再沿用过去熟悉的方法,实现这些基本目标,必须援引新的方式,建立新的智能,才可望扭转整个局面。
如何培育新智能?答案就在于巨量资料分析!
传统 vs. 现代 商业分析大不同
传统的BI或资料仓储(Data Warehouse),系擅长于处理结构化资料,亦即一般存放于关联式数据库的数据,对于XML、Logs、Click-Stream、RFID Tags等半结构化资料,抑或网页、电子邮件、多媒体、实时讯息等非结构化资料,处理能力一向都不太好,少量处理如此,面对现今爆炸性的「巨量」,那更是无力应付。
所以企业若一味缅怀过去,运用传统资料仓储、资料采矿(Data Mining)等工具鉴往知来,恐将事与愿违,因为这些工具所带出的分析结果,对于企业竞争力的提升作用,已经愈来愈小。
那么该如何是好?即是设法强化半结构化与非结构化巨量资料的处理能力,以期填补既有商业分析机制的先天缺陷;其大致的运作原理是,运用一套全新的解决方案,先针对内外部巨量资料加以储存、运算、处理与分析,然后再把其处理或分析结果,转变为某种结构化格式,如此一来,BI或资料仓储便可撷取这些结果,为终端使用者进一步提供相关的索引或搜寻。
于是乎,最擅长处理半结构化与非结构化资料的Hadoop-MapReduce,遂成为巨量资料分析架构当中的重要环节,从以往鲜为人知,变成今时今日的当红技术;根据市场研究机构MarketAnalysis.com预估,时值2013~2018年期间,Hadoop-MapReduce市场的复合成长率高达58%,到了2018年其产值将达22亿美元,放眼各项IT产品或技术,具备类似于Hadoop-MapReduce增长幅度的项目,其实并不多见。
综此,建立Hadoop-MapReduce分散式运算架构,似已成为企业跨足巨量资料分析的必经之途,但要想在这条路上走得安稳,企业必须先把大环境给营造出来,首先便是导入云端运算,藉由虚拟化技术将一群廉价的运算资料,汇集于可供挪移调度的资源池。
其次则是建立资料储存(Storage)与撷取(Retriever)机制,因此举凡HDFS(Hadoop Distributed File System)分散式档案系统,以及立基于栏位(Column)的HBase数据库系统,显然都成为企业IT人员的必修学分。
HDFS有一个更传神的称谓-NameNode,负责将档案切割成为固定大小的区块,然后再将各个区块分散储存至不同的DataNode上,运作原理彷彿Linux档案系统里头的Inode;因档案储存皆跨越实体机器,所以HDFS可被为一项虚拟的分散式档案系统,与传统档案系统分割Block后都存放到同一机器的做法,的确大不相同。
至于HBase,我们可以这样解释,简单来说,Hadoop就是一套实现Google Map & Reduce的工具,而HBase则用以实现Big Table设计概念,两者皆属于Apache项目的一环,也都以Java作为主要程序语言。Hbase是一种足以迅速存取大量资料的数据库设计方法,它运用Row-Oriented、Column Family等思维,俾使用户便于储存具备不同栏位属性的资料,尔后亦可援引Row Key,快速读取其所需要的资料。
而不管是HBase,以及负责将单一工作分散至不同集群加以平行运算的MapReduce,大家都需构筑在HDFS基础之上,所以无论在建立HBase或Hadoop时,皆需设定联系HDFS的Server与Port,以便于让同一份档案,可被复制到不同的运算节点。
一旦运用Hadoop-MapReduce负责处理半结构化与非结构化资料,再配合传统BI与资料仓储对于结构化资料之处理与分析,企业即可成功进入Big Data世界,再从Big Data走向Total Data,从过去茫然未知的冰山下世界,深入萃取商业价值,借以预测未来、优化竞争策略、提振顾客满意度。
此处必须强调,过去的资料采矿,通常是提出「会问」的问题,接着从这些问题找答案、找知识,但进入巨量资料分析,用户心态势必需要调整,转而将重点置于「不会问」的问题,比方说经由客户在社群网站的意见讨论,驱使下一个问题的产生,继而探索解答,以利企业能从未知环境中创造价值。(RFID世界网编辑整理)
【责任编辑:廖小亚】