刚刚结束的KDD2016,罗格斯大学的熊辉、北京航空航天大学的杜博文和侯振山发表论文。他们研究了北京的公交、火车和地铁上乘客的移动情况,分析智能公交一卡通数据,结合警察公布的和社交网络上的信息,从中找出扒手,在识别犯人方面准确率为93%。这项技术将在北京进行试点,其他城市随后推行。
智能卡公共交通票务系统让人们能在公交、地铁、电车、火车与轮船之间自由搭乘——即使这些是由不同的公司运营——而无需购票。这非常方便,但是也有不利的后果。其中之一就是,任何有访问权限的人通过追踪乘客(或者是他们的交通卡),都能精确研究人们要去哪里。
公司利用这些信息来优化服务。当然,这也是一件好事。但是利用智能卡数据还能做许多其他的事情,其中有一些就会让爱好自由的人很困扰。日前,在旧金山举行的知识发现和数据挖掘大会(KDD)就概述了其中一件事,表面上看起来完全没有危害。这就是利用这些数据来抓扒手。
这个想法是罗格斯大学的熊辉、北京航空航天大学的杜博文和侯振山一起想出来的。他们研究了北京的公交、火车和地铁上乘客的移动情况。和预料中的一样,大多数乘客迅速从A移动到B——用时最少或换乘次数最少,每天都是相同的行程。但是有一小部分人,其乘坐路线没什么规律,或是突然改变乘坐模式。
许多这些异常可以有单纯的解释:忘记拿公文包了,或者是对部分路线不熟悉。但有些时候,原因可能是恶意的:扒手在交通网络上实施扒窃,可能使用的还是偷来的交通卡。
值得庆幸的是,扒手很少。但是,这也使得他们很难被找出来。熊辉博士使用的是包括两个步骤的系统。首先,一个计算机分类程序查看从2014年4月到6月之间的600万张交通卡在北京各地的行程,然后将异常值从普通乘客中分离出来。第二个分类程序预先获取从警局报告和社交媒体消息搜集到的扒手热点信息,然后试图从这些异常值中间识别出扒手。
在这方面,该研究成功了。它识别出了93%的已知的扒手(即在此期间被警察抓到的扒手)。然而,第二个目标是尽可能准确地识别出嫌疑人。而这一次,它的表现模棱两可。每14个嫌疑人中只有1个是已知扒手。另一方面,该数据还包括一些未知扒手。
虽然误判率这么高,熊辉博士认为,他开发了一个强大的工具。使用闭路摄像机监视可疑的少部分人远远比不上追踪几百万乘客可怕。他说,这项技术将很快在北京进行试点,在中国其他城市随后推行使用。
并非所有专家都相信该技术。Shashi Verma是伦敦交通局的CTO,负责整座城市的Oyster卡系统的流畅运行。他说,据他的记录显示,数百万的普通人会做出各种“怪异、精彩、复杂”的行为。要从众多无辜乘客之间找出极少数的罪犯可不像听起来那么容易。然而,熊晖博士坚信他的团队的做法,他们还建议调查其他“反社会团体”,如公共交通网络中的“酗酒者、吸毒者、流浪汉和毒贩”的移动模式。抓扒手是一回事。可是,利用人工智能追踪那些处于社会边缘的人又是另外一回事。技术不知道二者的差别,但是人需要知道。