数据显示,从现在起直到2018年,全球大数据市场的年均复合增长率将达到26%,从148.7亿增至463.4亿美元。中国工程院院士邬贺铨也表示,继云计算后,大数据成为信息技术领域最为热门的概念之一。在工信部发布的物联网“十二五”规划中,作为四项关键技术创新工程之一的信息处理技术中包括海量数据存储、数据挖掘、图像视频智能分析,这些都是大数据的重要组成部分。
然而,大数据究竟是怎么回事?在现实场景中又有哪些应用?这个“时髦”的新产业,将给我们的生活和工作带来哪些巨大的变化?
取之不尽的“数据金矿”
什么是大数据?《大数据时代》的作者之一舍恩伯格将之定义为“不用抽样调查的捷径,而采用所有数据的分析方法”,简单来说,就是利用互联网和计算机对海量数据进行抓取、管理和处理,并且从中提取出有意义的讯息。
大数据有什么用?一方面大数据技术可以扎扎实实地用数据说话,打破直觉和思维定式。舍恩伯格曾经举例说,人们常常会说冬天要记得戴帽子和手套,避免着凉感冒,但大数据会告诉你,感冒来自于病毒,跟戴帽子手套
没有直接关系。二是大数据技术可以让人们对未来进行“预测”,通过对所有可能的数据进行分析,而找到数据之间的关联性,并由此预测出趋势。日本SS制药公司运营的网站Kazemiru正是大数据技术应用的一个生动写照。这个网站通过对数万条推特信息的抓取,找到日本各地可能正在感冒的人,并通过与昨天的数据进行对比,并结合气温和湿度变化来预测感冒在不同地区的流行情况,为每个登录该网站的用户提供“感冒日历”,通过与日本国立感染症研究所对全国5000个医疗机构的感冒患者的统计数据对比,Kazemiru的预测与实际情况基本一致。
大数据技术在今时今日的“井喷”也事出有因。大数据,首先要有足够多的数据产生。随着互联网的高速发展和成熟,互联网产生内容和数据的能力不断增强,百度技术委员会理事长陈尚义曾透露,百度每天处理的数据量接近100PB,而1PB相当于5000个国家图书馆的信息量总和,此外在每分钟内,新浪和腾讯微博发送出数万条微博,淘宝卖出了近10万件商品……来自市场研究机构IDC的数据显示,2011年全球数据总量已经达到1.8ZB,这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有35ZB的数据量,增长近20倍。而每个ZB的数据,都相当于装满10亿个1TB的移动硬盘。
其次,还要有储存和分析这些数据的能力。从硬件设备来看,计算机性价比的提高,磁盘价格的下降,大幅降低了大数据存储和处理的门槛,数据显示,2000年的硬盘驱动器平均每GB容量的单价约为16美元到19美元,而现在却只有7美分。在重量上,1982年世界第一台超GB存储器容量为1.2GB,重113千克,而现在,32GB的微型SD卡仅有0.5克。从处理能力来看,云计算成为最重要的推手,数据被搬到了“云”上之后,更容易被收集和获得,而云计算强大的处理能力也使更多行业和企业有机会对数据进行整理和分析。
“真金白银”领跑行业应用
去年11月份,北京公务员胡晓璐摇到了车牌号,在网上四处查询和对比各种汽车型号之后,她惊讶地发现,自己看到的汽车网络广告变多了。
胡晓璐所不知道的是,在她点开某个网页的瞬间,一场“拍卖”正在悄无声息地进行着。广告交易平台迅速地向各大需求方平台发出“这儿有个广告位”的信息,需求方平台则根据她之前的浏览行为判断出“这个人可能要买车”,然后迅速出价,谁出价最高,胡晓璐就会在点开的网页上看到谁推送的广告,一切都在0.1秒内完成。
这就是RTB(实时竞价)技术,利用大数据,它可以根据每个用户的具体偏好来精准地投放互联网广告。和这项技术一样,与营销、电子商务、互联网金融等等“真金白银”相关的大数据技术最早被投入到对商业模式的变革之中。
1号店负责生鲜业务的副总裁郭冬东告诉本报记者,通过对海量数据的分析、判断和整合能力,1号店可以精确地预测第二天生鲜货品的订货数量,然后向供货商下订单,产品第二天早上8点进库。“综合折算下来,仅在仓储环节,损耗率可以控制在个位数,而传统线下渠道的损耗率一般是30%左右。”借助大数据,电子商务平台得以进军传统零售业的“腹地”。
数据甚至成为网络卖家和中小企业的“无形资产”。阿里巴巴旗下的两家小额贷款公司,截至2012年6月底,已为超过12.9万家小微企业和个人创业者提供贷款,贷款总额累计超过260亿元。他们能拿到贷款的关键之一,正是此前网络交易的诚信记录。全国农信银资金清算中心运行保障部总经理王永刚对此感慨万千:“阿里巴巴的小额贷款几小时就能发放,而我们最快也要7天。他们靠的就是开放平台的渠道优势,和大数据的分析和处理能力,从而大大降低了信贷的成本。”
不过这些都还是基于自己平台内部产生的数据,如今互联网巨头们还通过频繁的并购与合作,将外部数据纳入大数据处理的范畴。比如:阿里巴巴在收购新浪微博18%的股权后,宣布打通淘宝与新浪账号,让微博产生的隐形消费需求和淘宝的显性消费数据得以整合;百度将19亿美金砸向91手机助手,从而获得了1.27亿手机用户的使用习惯和相关数据;腾讯则通过微信公众平台直接向线下企业提供大数据技术下的客户管理增值服务。用户在哪里?他们喜欢什么?想要什么?互联网巨头们正在拼凑一份涵盖方方面面生活图景的数据图。
智慧城市释放数据“能量”
对于广东佛山的“12345”市民热线来说,每一通来电都是宝贵的“数据财富”,不光是话务量分析,通过大数据技术,这些音频中的核心数据被提取出来,并被统一组织、存储、管理和应用,市民们集中的诉求会被直接向各有关部门反映,成为政府决策分析的数据支撑。
尽管目前大数据相关的商业模式还集中于企业应用,但与电子政务相适应的服务则被不少人当做大数据技术未来的又一重要的应用场景,大数据也因此被视为智慧城市的“智慧引擎”。邬贺铨告诉记者,大数据将遍布智慧城市的方方面面,是智慧城市的智慧之源。大数据能够使政府的决策与服务、人们的生活方式、城市的产业布局和规划及城市的运营与管理方式,实现“智慧化”或“智能化”。
然而,将这部引擎发动起来,却首先需要数据的开放与整合。国务院发展研究中心技术经济研究部副调研员李广乾表示,数据开放为大数据应用提供创新“源头”。大量数据的可获得是大数据价值实现和最大化的前提。
在美国,2009年奥巴马入主白宫后,所做的第一件事就是要求联邦政府各部门通过“一站式”政府数据下载网站向社会公开各类非保密的数据库。如今在这个网站上,有超过40万种各类原始数据文件,涵盖了农业、气象、金融、就业、人口等近50个门类。
在我国,各地也在探索数据开放的机制和方式。作为“大数据”惠民的一项重要探索,北京市政务数据资源网预计今年年底之前正式开通,为政府信息资源的社会化开发利用提供数据支撑。北京市经济和信息化委员会副主任童腾飞表示:“政府部门大量信息资源,如果能开放给社会利用,会创造更多价值。”目前,北京市已有29个部门公布了400余个数据包,点击量最高的“土地用途分区”已被下载684次。在上海、广东、浙江、重庆等地,不同形式的数据开放也在探索之中。
随着数据公开,大数据使用的监管也被提上日程,有关专家建议,应该尽快出台大数据相关的顶层设计方案,划清保密信息、商业公开信息和免费公开信息、义务公开信息之间的界限,并且明确信息公开和数据使用的责任与义务。