详情
大数据挖掘风正起 隐私边界仍不清晰
作者:李新玲
时间:2013-07-05 09:20:20
在当当网上购买了经济类图书,再登录时,页面上就会主动跳出与经济金融投资相关的图书;在淘宝网上买了几件童装,登录后,页面上就会出现各式的小孩衣服,而且价钱、样式都会与购买的类似;只要在某个购物网站留下邮箱,邮箱里总会出现很多卖家的广告……上述经历,相信是很多人上网时会遇到的情况:被推送,而且是根据个人的喜好被精确推送商品。这一切都与现在网络科技的一个热门词相关:数据挖掘。
关键词: 大数据 隐私边界

  在当当网上购买了经济类图书,再登录时,页面上就会主动跳出与经济金融投资相关的图书;在淘宝网上买了几件童装,登录后,页面上就会出现各式的小孩衣服,而且价钱、样式都会与购买的类似;只要在某个购物网站留下邮箱,邮箱里总会出现很多卖家的广告……上述经历,相信是很多人上网时会遇到的情况:被推送,而且是根据个人的喜好被精确推送商品。这一切都与现在网络科技的一个热门词相关:数据挖掘。

  从去年开始,有关大数据的各种论坛此起彼伏,让人感觉大数据时代来临的紧迫性,这与前几年云计算、物联网风起时情况类似,人人都在谈,但到底如何做、如何利用却只有少数人能够说得明白,谈得清楚。

  不久前在北京举办的“中美创新链接大数据高端论坛”上,北京经济和信息化委员会副主任梁胜就直接点题:“我更关心的是,大数据到底能为城市安全运行提供什么?到底能为科研生产活动提供什么?我想,这是政府和市民,以及各行各业都需要的。”

  阿里巴巴的数据科学家杨滔以阿里巴巴的实际案例,分享了一家数据生产巨头内部对数据的挖掘和运用。

  杨滔先介绍了他们如何利用淘宝网构建起超级数据集:“就是对消费者信息的提炼,通过购物记录、支付宝的记录等,提炼出用户性别、年龄,所在地的级别,比如是在城里还是乡村(可以提炼出几级城市),是在沿海还是内陆,是在南方还是北方,是不是结婚了,是不是有孩子这些信息都是从大量数据中提炼出来的。”

  杨滔透露,他们通过支付宝和淘宝的数据,统计发现淘宝网上的活跃用户中有近2000万名大学生。“大学生”这个标签是数据本身中没有的,但可以通过用户收货地址挖掘提取出来,并通过过滤手段把大学里的教职员工和其他人员排除在外。

  杨滔还介绍了用户并不清楚的淘宝网“微市场”:“我们给用户分成了很多群,这个群就是用到消费者超级数据集,再根据用户的购物行为作动态的分组,比如说一个"贵妇"也喜欢买便宜的东西,一个不是有钱的大学生也可能买奢侈品,不同的行业里面和不同类目里面,根据消费者的行为作购物的动态分析。”杨滔特别提到“达人推荐”:“达人就是在不同商品中善于发现好东西的买家。找到你所在的群体中比较活跃,善于发现淘宝商品的达人,用达人来给你做推荐。”

  因为通过分析,杨滔他们发现,和某类消费者兴趣相似的达人,经常能搜到一些有品质的商品,在这些达人的引导下,可以拔高追求高品质的消费者的需求,而不是重复原来的需求。

  他们在女装“微市场”测试了6个群体。消费者不知道自己的分类,但是默认看到的东西和别人看到的东西是不一样的。这6个群体用到了分群和达人推荐,购买的各项指标提升得都非常明显,花费平均提升20%以上。其中消费能力高的“贵妇群”支付宝交易额提升60%以上。而“贵妇群”以前在淘宝很难找到适合她们的商品,淘宝更照顾寻找便宜和性价比较高商品的人群。

  杨滔最后还介绍了一个通过数据挖掘来进行商品销售预测的项目。他们在“聚划算”中选取少量商品,对比机器审核和原有的人工审核,结果是机器预测商品销售远高于人工审核的准确率。他认为,这个基础性的工具,对于未来淘宝网精细化的运营,卖家合理的定价和库存管理,都会大有用处。

  云计算和移动互联网的高速发展正在推动和改变着企业的运营模式,很多巨头公司都已经开始自建大数据平台,越来越多的企业开始运用互联网和移动平台进行市场营销和业务管理。针对这些新趋势,DCCI互联网数据中心创始人胡延平认为移动端的数据价值更大。“但这个领域处于数据沉淀,基础数据监测阶段,距离真正的挖掘还比较远。”针对目前急骤上升的移动互联用户和数据,胡延平认为,“PC端和移动端的数据,从数据的质量、数据的结构、数据的获取方式、数据的量级等,都有很大差异。”

  他解释说,在移动端本身应用和应用之间相对来说都是封闭的,所以移动端数据不是开放性的。现在有些大企业试图形成一个封闭的开放平台,把大家圈进来形成规模,有了规模之后才能形成发现数据体系。

  同时,他也表示了对这个行业的忧虑:“(做数据挖掘)要尊重用户,不尊重用户数据很难做得很远。我们评测65%以上移动应用,也会抓取一些与评测功能无关的用户数据,甚至是涉及隐私的数据。”数据获得与数据利用的隐私边界都是问题。

上一篇:海归博士抢滩物联网 牵手英特尔 下一篇:传中国电信将全网试点LTE 第四季度启动招标