详情
揭密:人脸识别系统如何"画"出哨兵遇袭案疑犯
作者:中国青年报
时间:2009-04-30 09:45:52
清华大学电子工程系教授,主持研制“人脸识别系统”的苏光大,曾利用该项技术,协助公安部门成功破获数起要案。在他看来,模糊图像复原和人像组合技术,在中国已经相对成熟,而综合了两者技术特性的人脸识别系统,正越来越多地被人们运用,成为辅助识别犯罪嫌疑人的有效办法。
 2009年3月19日晚7时42分,重庆一名执勤哨兵被袭击身亡,袭击者还抢走了哨兵的半自动步枪。这便是震动整个中国的重庆“3·19”哨兵遇袭案。  

  3月30日,重庆市沙坪坝区公安分局发布悬赏公告,公开了由现场监控录像抓拍的4张视频截图,但截图中并没有袭击者的正面影像。一星期后,在重庆市江北区公安分局公布的电脑模拟画像中,袭击者的头部被“转正了90度”,一张隐藏在浅色线帽下的面孔逐渐清晰。  

  画像公布之后,很多人好奇,原本模糊的视频截图,如何能变得清晰?袭击者的头部是怎么被“扭正”的?最终是否能够识破这张隐藏在线帽下的“庐山真面目”?  

  清华大学电子工程系教授,主持研制“人脸识别系统”的苏光大,曾利用该项技术,协助公安部门成功破获数起要案。在他看来,模糊图像复原和人像组合技术,在中国已经相对成熟,而综合了两者技术特性的人脸识别系统,正越来越多地被人们运用,成为辅助识别犯罪嫌疑人的有效办法。  

  人工绘图,得到便于抓捕的正面图像 

  “3·19”枪匪到底是谁,目前不得而知。不过,在以往的案件里,根据视频截图生成人脸正面清晰图像,进而破案,早有先例。  

  苏教授回忆起他曾协助警方破获的“京城超市投毒第一案”:北京市的7家超市,先后接到一男子的匿名电话。他以投毒相要挟,勒令商场向他指定的账户汇款。为了锁定犯罪嫌疑人,警方利用银行内的电子眼,拍摄其提款过程,想从视频中组合出男子的模样。  

  图像组合的原理,其实并不复杂——通过获取嫌疑人脸部不同角度的多张图片,经人工绘图,得到便于抓捕的正面图像。  

  然而,想要从连贯的视频中,精确地“剥离”出接近真实的清晰人脸,其难度比组合几幅静态图片大得多。这就需要借助“模糊图像增强系统”,对多幅图片进行逐个分析。  

  “这就像放大每一个慢动作里人物模糊的脑袋,再用数学公式重新叠加出一张眉眼清晰的脸来。”章柏幸解释道。他是公安部人脸识别标准委员会委员,也是苏光大科研小组成员之一,曾直接参与系统研发。  

  问题的关键是,在“超市投毒案”的视频中,嫌疑人的行迹相对连贯清晰,而截取其中单幅画并“抠”出头部后,分析对象仅仅是一张大小不足一厘米的图片,面部细节非常模糊。如果进一步放大分析,眼睛、鼻子等关键部位的信息更是丢失殆尽。  

  “这就像是拍照抖了手,或者嫌疑人走路太快,焦点没法对准。”章柏幸说。  

  而“看清”这张脸,正是案件破获的关键。于是,将截图输入“模糊图像增强系统”后,系统会根据模糊成因,进行参数分析。然后,再自动筛选出特征较为清晰的10张。如果将10张左侧脸叠加为1张后,含有嫌疑人明显眼部信息的一个侧脸,就会显示出来。  

  约一小时的时间里,同样的程序反复运行三四次,最后,警方绘图专家已经可以通过系统细化后的脸部多角度画面,绘制出犯罪嫌疑人的正面模样。  

  当这个名叫尹刚的东北籍投毒犯被抓获时,他吃惊地说:“原以为在北京,不可能有人认得我。” 

  “人像组合系统”帮助“摘墨镜” 

  然而,制造重庆“3·19”哨兵遇袭案的袭击者,显然比尹刚谨慎得多。始终掩盖在浅色线帽下的,到底是怎样一张面孔?  

  对于这样的情况,人眼识别困难重重。以至于曾目击枪匪逃窜的废品铺老板不胜其扰,每次面对记者,只能反复说:“他脑袋上套着帽子,只露出眼睛。”  

  的确,刘海、口罩、帽子、眼镜,是人脸图像中最常见的遮挡物,对识别准确率影响很大。墨镜更是绝佳工具。章柏幸和他的研究小组就曾接到某国家部门的一张视频截图,画面中的人用墨镜遮挡住大部分的脸部特征,难以辨识。  

  “但这并不直接影响‘人像组合系统’画出脸的大致模样。”章柏幸说,“即便他隐藏了某个‘部件’。”  

  这些“部件”,指构成人脸的五要素:脸型、眼睛、鼻子、嘴巴和眉毛。“人像组合系统”的计算原理,正是分析五部件的各自特征。系统将人脸识别分解为:人面像识别,眼睛识别,嘴巴识别,鼻子识别,眼眉识别。如此细分,可以有效避免由年龄、姿态等变化产生的面部变形对捕捉人脸信息造成的影响,“摘掉”眼镜和口罩,也不是什么难事儿。  

  在“人像组合系统”的作用下,几分钟后,一张隐藏在墨镜下的人脸逐渐清晰,新图像随即交由当地警方,在辖区范围内排查锁定嫌疑人。  

  “摘墨镜”看似简单,系统却需要运行一系列庞大的运算。因为人面部的五官结构各有不同,为获得准确结果,每个细部的识别都需要用不同的方法分析计算。  

  而操作者只需“做道选择题”:向系统输入“戴墨镜”的人脸之前,不选眼睛,只在其余四“部件”前打上钩。用章柏幸的话讲,要让计算机明白,这次眼睛“不做数”。  

  置换一个最简单的例子,即便本·拉登刮掉了标志性的浓密长胡子,去掉下巴,也能画出他的模样。  

  “人脸识别系统”运算分析 

  但是,从视频中还原并组合出相对清晰的人脸,只是两步必要的“准备”工作,要想从茫茫人海中揪出嫌犯,还需要“人脸识别系统”的运算分析。  

  而这一系统,在2008年北京奥运会开幕式的入场安检中,就曾发挥过作用。  

  这是奥运史上首次采用具有“生物特征”的身份识别方式。8月8日当晚,观众进入“鸟巢”,除了凭借那张价格不菲的门票,还必须逐一在进场通道前“留张影儿”。  

  “拍照”由一部安装在人脸识别认证设备顶端的摄像头完成。这个摄像头,与另一台识别门票信息的刷票机,共同组成了人脸识别认证系统的终端。  

  持票人刷票时,摄像头在一两秒钟内抓拍人脸,系统再自动分析1秒内的25帧画面(或2秒内50帧画面,依次叠加),选取角度合适并且相对清晰的5帧(或10帧),定位面部关键点,并提取特征,随后将持票人和票内信息的认证结果同时上传到中转服务器,再由中转服务器上传至安保中心服务器。观众信息获得认证并通过,只需要两三秒时间。  

  “定位关键点和提取特征,是整个识别系统中最关键的一步。”章柏幸说。  

  然而,困难在于,人脸本身虽不易改变,神态却千变万化,甚至在人的一生中,一张面孔上绝对不会出现两种完全相同的表情。加上年龄增长和不同光照下的明暗变化,识别人脸对于只认数字和计算的电脑来说,困难重重。  

  “但是在识别过程中,电脑必须和人脑一样,看一眼就知道‘他是不是他’。”中科院计算机研究所博士孙庆南说。北京奥运会期间,他作为奥运会电子门票协调小组成员之一,直接参与了人脸识别快速身份验证系统的实施和操作。  

  其实,人的面部有许多无法改变的特征:眼眶内外侧的比例,鼻梁长度和鼻翼宽度的比例……这些由人的面部骨骼决定的比例关系,组成了无数个“关键点”,不会因为胖瘦、表情、年龄的变化产生改变。  

  于是,系统根据这些关键点进行统计学计算,建立起数据模型,把人的面部解析成由数字组成的“矩阵”,变成电脑能读懂的“语言”。这样一来,人脸经计算机转换为数字,一点点计算出来,最终提取出一组能够表达整张人脸的特征数据。  

  为奥运会开幕式门禁建立的数据库,包含了所有持票人购票前提交的正面免冠照片,并且已完成对面部特征的逐一提取。当系统从摄像头图像中提取的持票人特征,与数据库中已储存的购票人特征重合度达到80%以上时,便能认定“他就是他”。  

  “通常,在我们的系统里。这组数据称为‘680维特征’。”章柏幸说。 
上一篇:瑞士最大的服装零售商采用RFID赢得竞争力 下一篇:Zebra携手ThingMagic交付便携式RFID打印机RP4T