近日,美国两本著名学术杂志同时关注大数据话题:《外交》杂志5/6月刊将《大数据的兴起》一文作为封面文章,认为大数据将改变人类思考和看待世界的方式。而《外交政策》杂志则在网站上发表微软研究院首席研究员、麻省理工学院公民媒体中心客座教授凯特·克劳福德的文章《对大数据的再思考》,从五个方面对大数据理论提出质疑。
大数据带来变革
《大数据的兴起》一文作者是近期引发热议的专著《大数据时代:生活、工作与思维的大变革》作者肯尼思·库克耶和维克托·迈尔—舍恩伯格。在文章中,库克耶和舍恩伯格肯定了大数据对社会的巨大变革能力,称大数据不仅将改变人们的生活和工作,而且将改变人类认识和思考世界的方式。
两人认为,随着技术环境的变化,一方面世界出现“数据爆炸”的现象,另一方面人类处理数据的能力也大为增强。由此,人们对待数据的方式出现了三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相互联系。这一切代表着人类告别总是试图了解世界运转方式背后深层原因的态度,而走向仅仅需要弄清现象之间的联系以及利用这些信息来解决问题。
《大数据的兴起》列举了大数据在医学、消费品领域的应用实例。但作者同时认为,大数据的影响力绝不仅限于商业范畴,它将深远地改变政府的运作方式和政治的性质。他们在文章中写道,“在推动经济增长、提供公共服务或进行战争等方面,那些能够有效利用大数据的人将拥有胜过别人的巨大优势”。不过,两位作者承认,大数据应用在公共服务领域比较成功的案例出现在城市这一级,因为在这个级别上获取数据和利用信息进行试验要容易一些。
学者提出五质疑
克劳福德的文章认为,大数据是当前的时髦术语,但人们是否能依靠海量数据揭示人类行为的规律仍值得怀疑。她针对大数据理论从五个方面提出质疑。
第一,大数据中存在偏见和盲区。大数据的倡导者认为,“有了足够的数据,数字就可以自己说话”。但克劳福德认为,数字无法自己说话。不论其规模有多大,数据集归根到底是人类设计的产物,而大数据的工具并不能使人们摆脱曲解、隔阂和错误的成见。当大数据试图反映人类所生活的社会化世界时,认清这些因素就尤为重要。偏见和盲区存在于大数据中,从大数据得出的结论并不比人为的意见更客观。
第二,大数据在一定程度上可以使城市变得更加智能和高效,但具体效果如何取决于市政官员对数据及其局限性的了解。克劳福德称,大数据的倡导者认为,“大数据将使我们的城市变得更加智能和高效”,在一定程度上确实如此。但另一方面,数据在生成或采集的过程中并不都是平等的,大数据集存在“信号问题”———即某些民众和社区被忽略或未得到充分代表。因此,要想运用好大数据,市政官员必须对数据及其局限性有充分了解。
第三,大数据可能导致基于群体的歧视。大数据的倡导者认为,“大数据对不同的社会群体不会厚此薄彼”,其理由是,原始数据的分析是在大规模水平上进行的,因而避免了基于群体的歧视。但克劳福德认为,实际情况并非如此。由于大数据能够作出有关群体不同行为方式的论断,而且其使用的主要目的是把不同个体归入不同的群体中,因此大数据不仅不会避免群体歧视,还可能加重这一趋势。
第四,隐私泄露是大数据应用中的重要问题。克劳福德认为,大数据的倡导者关于“大数据是匿名的,因此它不会侵犯我们的隐私”一说大错特错。尽管许多大数据的提供者尽力消除数据中的个体身份,但身份重新被确认的风险仍然很大。鉴于利用大量公共数据集可以推断很多信息,这使泄露个人隐私成为“日益严重的担忧”。
第五,大数据为科学研究提供了新的途径,但不可断言“大数据是科学的未来”。克劳福德称,大数据的研究方法只能统计某件事情发生的频率和相关性,但不能得出因果关系。将大数据策略和小数据研究相结合也许是更好的科学研究途径。
库克耶和舍恩伯格也认识到了大数据理论的一些内在瑕疵。在《大数据的兴起》一文结尾,两位作者表示,大数据是一种资源和工具,它的目的是告知,而不是解释;它意在促进理解,但可能导致误解———关键在于人们对它的掌握程度。他们认为,人们必须用一种不仅欣赏其力量、而且承认其局限的态度来接纳大数据。