这些年来,科技发展的过程也可以被看作为不断挖掘新数据的过程。互联网记录下我们的每一次浏览和点击,移动互联网记录下我们身处何地,现在自拍软件和FaceID还要记录下我们的长相。
毫无疑问,数据也是昂贵的,即使经常被当做黑产倒卖,那些拥有独特数据来源的企业往往是在机器学习方面发展靠前的。
那么,是否存在另辟蹊径的方法?除了有意识的点击之外,我们能不能在其他不起眼的数据中挖掘出价值?
答案是当然。
通话记录
提起通话记录,大多数人都会觉得相当敏感。实际上不通过电信公司,一样能获得有价值的数据。
一篇发表在皇家学会中的论文提出了这样的实践:不涉及运营商,单纯监测工厂、写字楼密集区等区域的基站,通过基站信号来计算区域中电话接听和拨出的数量,从而来预判这一地区的失业概率。
显然,如果某一地区接听和拨出电话的数据量开始下降,那么这里的工厂距离裁员也就不远了。
研究人员表示,对于经营状况、裁员计划这种事,实地调查往往听不到什么真话,或者是收到阻碍。而直接通过电话信号预测,来的要直接的多。
对于这篇论文,也有人觉得,随意获取电话信号频率来判断区域经济情况,这说明我们离《1984》真的不远了。
摄像头
相信不少人都曾经看过有关“711”传奇式成功经历的文章,里面提到过一个细节:在日本的711中,收银员的机器上有按钮分别表示“性别:男/女”、“年龄:14~18/20~25……”、“身份:主妇/白领/学生”。收银员在收银时会顺便记录下这些顾客信息,对照消费记录,就成为了一种非常朴素的数据收集方式。
现在在网购时,电商平台可以轻易获取我们的信息和购物喜好,那么在实体店呢?利用新零售中线上线下账号一体化或许可以解决。但有研究表明,无处不在的摄像头可以完成这一工作。
目前实体商店的摄像头只是起到监控作用,但只要加入一张芯片,就能把它变成数据分析能手。摄像头不光可以记录下消费者的年龄性别,还可以记录下他们端详每一件商品的时间和在店中的行走路线。对于实体商店来说,这些数据让他们可以对店面中的商品、陈列、促销信息等等做出改进。
作业本
看到作业本三个字,你一定猜中了这一案例来自中国。不管是家长还是老师,为小学生批改口算题都是一件痛苦的事情,动辄几十道题,按计算器都要按个十分钟。
一家位于杭州的创业企业——大拿科技,正在利用图像识别解决这一问题。利用他们推出的App“爱作业”,只需对着作业本拍下一张照片,算法就会为你圈出错误的地方。
其中的原理很简单,利用图像识别技术识别出数字并执行计算。识别印刷体数字不难,但想要准确识别出小学生们的手写体恐怕就要费点功夫。大拿科技的解决方式是……作业本。大拿科技就地取材,在杭州的几所小学共收集了500~600本使用过的数学算术题作业本,并拍摄照片为机器学习算法提供训练资源。
在取得初步的成功后,他们还购买了1000本全新的数学习题册来收集不同题型、扩充数据库。
农民伯伯的U盘
我们可能想象不到,现代农业是一项数据化程度非常之高的产业。在美国,农民甚至是第一批民用GPS的使用者,远远超过了谷歌地图。
而大多数农民都会有收集数据的习惯,从灌溉量、种植量、收获量,到哪种化肥更好用,这些记录都散落在农业从业者的电脑、U盘甚至记事本中。当智慧农业概念来临,政府、农业机构都渴望获得这些数据。
遗憾的是,目前大多数农业从业者没能从这些数据中获取到收益,农业数据往往在他们不知情的情况下被“拿走”了。有消息称,全球最大的种子公司孟山都与美国最大的农用机械公司约翰迪尔有着亲密的合作关系,于是,农民利用约翰迪尔农机时产生的数据就全被约翰迪尔与孟山都共享了。
在中国的智慧农业发展中,比较典型的是像佳格天地这样,依靠卫星遥感和气象来分析农业发展。而那些散落在农民自己手里的非结构化数据,还没能被很好的利用。看来在中国,如何帮助农业生产者保护和利用自己的数据会是一门好生意。