雷锋网 ai 科技评论按:10 月 17 日至 19 日,由 ccf 主办、苏州工业园区管委会、苏州大学承办的 cncc 2019在苏州成功召开。今年大会以「智能 引领社会发展」为主题,选址苏州金鸡湖国际会议中心召开。雷锋网ai 科技评论作为战略合作媒体对会议进行了全程跟踪报道。
在《》一文中,雷锋网 ai 科技评论提到,由澎思科技承办的「计算机视觉技术赋能智慧城市」技术论坛尽管在大会第三天举办,仍然人满为患,成为今年 cncc 的爆款技术论坛之一。
澎思科技首席科学家、新加坡研究院院长申省梅作为该技术论坛的主席兼演讲嘉宾,带来了主题为《视频图像智能化助力智慧安防建设》的演讲,她认为当前由于巨量摄像头的存在并不断生产出海量的监控视频,如果想要更好地利用、存储和检索视频图像,必须把视频图像智能化,将视频结构化和智能压缩,只有这样才能做到事前预警、事中处置、事后分析。
个人简介:申省梅,澎思科技(pensees)首席科学家、新加坡研究院院长,前松下新加坡研究院副院长。作为计算机视觉与深度学习领域顶级科学家,领导超40人的算法研究团队,获得十余项计算机视觉领域国际顶级竞赛冠军,累计专利300余项,致力于监控与安全、智慧城市、自动驾驶、智能机器人以及ai 工厂自动化米乐m6平台的解决方案等领域的相关技术的开发部署和落地。曾联合新加坡国立大学lv组参加pascal voc(视觉物体分类)连续三年获奖,在美国国家技术标准局(nist)主办的非受限条件下人脸识别竞赛ijb-a获得了人脸验证 (verification)与人脸辨认(identification)的双项冠军,在微软百万名人识别竞赛ms-cele-1m人脸挑战赛获双项冠军。
以下为申省梅演讲全文,ai 科技评论进行了不改变原意的编辑。
申省梅:
视频图像是从摄像头而来,就像我们的眼睛,我们看到了东西,但如果我们没有大脑来分析,图像就等于是没有意义的东西。
智慧城市包含着方方面面,从最近的落地来看,智慧安防、智慧交通、智慧社区远远走在了前面。那视频图像智能化能如何助力于智慧安防建设?
纵观整个安防行业的发展历程,ai的发挥空间还有很多。我相信大家也熟悉整个安防行业的发展,在座年轻人可能不太清楚,最早监控用的都是模拟摄像头,在中国模拟摄像头可能都不见了,但在其它国家还在大量地被使用。下一个阶段,当数字相机出现以后,就出现了dvr;接着网络监控阶段出现了,那时候我们就叫nvr 网络软件数字相机;今天我们看到的高清摄像头、以及智能监控已经出现在各个应用场景中了。
据英伟达预测,到2020年全世界会有10亿个视频摄像头在使用,另一个统计说中国现在已经有1.76亿个摄像头,3年之后可能会有6亿摄像头,也就是说平均两个人一个摄像头。
对大量的视频,尽管我们有压缩手段(视频流),但怎样存储、怎样观看越来越成为一个难题?假如我们想从大量视频当中快速地侦破一个事件,或检索一件事都变得非常困难。那是不是可以用人工智能来帮忙解决这个问题,做到事前预警、事中处置、事后分析呢?
数据压缩,事实上是一种不做内容分析的压缩,包括mpeg1/2、h.264、h.265,甚至现在的h.266,以及中国的压缩标准avs2/3。即使有这样的压缩,但现在摄像头的像素越来越高,摄像头的数目越来越多,即使有5g的出现,有云端的存储,我们最后的dvr、nvr(即使是云端的存储)也都是一种物理的存储。这不像我们大脑,从来没有一个人说“我们的大脑放不下东西了,我的记忆力满了”这样的话。因此我们就问,什么时候人工智能能做到代替物理的存储?物理存储是一个空间,它是有局限性的。目前的一种做法就是视频图像智能化。
对视频图像智能化我们要做好几件事,都是基于图像的分析理解。
第一,视频图像的恢复增强,即在恢复过程中如何提高图像质量。
第二,视频图像的目标检测、跟踪、识别。这个我们可以做到事前预警、事中处置。
第三,视频结构化,它包括人脸属性、行人属性、车辆属性、非机动车属性、以及各种物体的属性,每一个东西都有它的id(都有它的属性),这些结构化的信息就会使事后检索分析变得更为方便。
第四,在智能化的时代,我们除了普通的图片和视频压缩以外,能不能在视频内容理解的基础上做智能压缩。目前我们也在做智能压缩,也在做视频摘要,这会让我们进一步节省存储的空间和传输的带宽。
刚才讲到图像压缩会造成图像模糊,其实还有很多方面都会造成图像的质量下降,比如设备用的不正当,例如你用了高清的摄像头,但你的lens用的不匹配,或者我们拍摄的时候,环境条件(比如灯光或天气)不太好。李子青老师讲过光线对人脸造成非常大的影响,这几个问题都会让我们看到视频图像恢复增强是非常重要的一关。
分享一下我们最近的成果,对非常小的脸用的是“深度超分辨率技术”。传统的人脸识别在40×40以下就不行了;用上深度学习后可能会提高到30×30。
而我们的工作可以做到12×14(这是一个很小的脸),中间的结果是我们用深度学习的超分辨率方法恢复了他的人脸识别,我们在人脸识别的库上检测发现,用了深度超分辨率以后,我们的人脸识别性能从0.75提高到0.97。
当然还有其他各种各样的模糊问题,我们也都在做,例如运动模糊、defocus的模糊等,我们希望将来能够用单一的模块覆盖不同的模糊。
其次是背光、低光的处理。这里有两个图,右边这张图很黑,什么都看不清,当我们用低光处理后(如左图),内容就可以看到了。第二张图是做人脸识别的时候,如果你背后光线非常亮,你站在那边拍照,常常会出现脸部漆黑一片。我们用了背光处理,背光处理有不同的方法——传统的、深度学习的方法,在不同的硬件上、不同的场景下,我们会选择不同的算法。
图像增强也包括去抖动,比如刮风时抖动引起来的图像模糊,以及去雾、去云、去雨的处理。
澎思科技的人脸识别和行人识别、车辆识别,以及非车辆(自行车、摩托车等)的识别都是我们的关键产品,在技术上面,我们要求是非常高的。
这是过去我带领的团队取得的成绩,关于人脸识别,取得了nist奖,以及微软百万名人脸识别挑战赛的冠军。目标跟踪、行人检测、行人再识别也分别打破了世界记录。此外在pascal voc(imagenet前身),我们当时连着3年参加比赛,并且连续3年拿到冠军。交通异常检测、自动驾驶、以及智能机器人,我们都有参加比赛拿到过冠军,计算机视觉其实面特别广,它也用在智能机器人,自动驾驶方面。
我们最近在做跨摄像机的行人再识别reid。在不同的摄像头里,有时候有人脸出现、有时候没有人脸出现,通过reid的技术,即使在看不到人脸的情况下,我们仍可以通过行人的身体特征去判断这个人是谁。
这是我们做的一些测试,黄色框中这个人根本连脸都看不到,他出现在不同的角落,但我们通过他身体的特征,会知道这是同一个人,id是55,另外一个人是id25。
7、8月份左右,我们在行人再识别三大数据集market1501、dukemtmc-reid、cuhk03,视频行人再识别三大数据集prid-2011,ilids-vid,mars,以及行人属性上都打破了世界记录。
人脸识别,澎思更专注于动态捕捉下的人脸识别。监控相机没有办法约束条件,人脸的姿态、灯光的变化各种各样,还有模糊的情况。在这方面,最近澎思的模型在ijb-b和ijb-c下刷新了记录。我们的客户也拿我们的模型去跟友商做了比对,可以看出性能远远超过友商的性能。
李子青老师刚刚提到的iccv的人脸识别比赛,我们在iccv lfr挑战赛的轻量级图像识别、大型图像识别和轻量级视频图像识别三项竞赛中成绩第一,一个竞赛成绩第二。
视频结构化刚才也讲到了。当你事后想要从视频中检索一件事的时候,可以用视频的属性来检索。
这是公安的需求。原来公安想要从一天的视频中找到想要的东西,要用肉眼来看视频,找一个东西,确定一件事是什么时候发生的,至少要把整个录像看完才行;然而将视频结构化以后,几秒钟就可以找到想要的东西。
澎思科技的视频结构化属性与目标参考了国标,比如对行人结构来讲,我们支持27大项、128小项,这是属于业界第一的。9月份,澎思在行人属性三个数据库上也刷新了世界记录。
当然,在做的过程中也有很多困难,比如数据采集、以及数据长尾问题。长尾问题我们用了各种方法来解决,甚至用一些传统的图像处理方法,比如雨伞我们可以生成不同颜色的,其中也用了一些很inpainting的技术,也用了gan来生产,比如最下面这个人脸的数据库不平衡,这个文章已经发表。
澎思也可以做到实时结构化预览、综合检索,以及以图搜图,甚至以图搜视频。
在人脸属性上,除了性别、年龄以外,澎思的算法还包括有没有戴口罩、有没有眼镜等,共支持其它40多个不同的属性描述。
结构化也包括人、车一些行为的异常检测。异常包括交通的异常、打架、抢劫、聚集、事故、抽烟等。2018年我们也在cvpr上的ai city challenge拿到了冠军。
最后一个内容,讲一下视频内容的智能压缩,视频摘要。鲁继文老师提到深度强化学习怎么来帮助我们的例子,在这个问题上,我们知道很难用强化学习来做视频摘要和内容压缩,因为你不知道视频中哪一个行为是最关键、最重要的。
所以,一个策略就是在不同的情况下要有不同的考量,不仅仅是从一帧上去考量,它是在时空域上的一个分析,所以我们采用时空域的特征,并且做到关键内容的保留、压缩和摘要,根据不同的情况,有的时候可以做到10倍、100倍、甚至1000倍的压缩。我们在压缩的过程中属性同时会被记载下来,当将压缩后的这一段视频存下来以后,会不断地将重要的场景和行为存下来,而且对它的属性都有描述。
视频图像智能化,事实上还取决于图像质量的好坏,而图像质量的好坏又取决于整个软硬件系统的构成。比如说拍摄距离是多少、相机的像素是多少、镜头怎么选择、传输的方式是怎么样的、视频图像压缩的方式等,这些都会影响到图像质量的好坏。所以我们说完美体现技术的优势还在于一个很smart的米乐m6平台的解决方案,以及系统人员的培训。
在ai产业图谱中的技术层,澎思科技一直走在前面。我们的立场是坚持应用驱动的米乐m6平台的解决方案,商业驱动的算法研究,用最有效的算法和最经济的软硬体来解决客户的刚需。
因此我的结论就是,视频图像的智能化非常重要。现在很多人都在用深度学习,如果是视频图像数据,就一定要进行结构化分析,这是一个前提。这个方面包括了很多技术,如果把这些技术都用好,我们就可以实现事前预警、事中处置、事后检索分析。我个人更想追求的一个方向是节省存储空间、传输带宽、智能化的方式。这个方面我相信接下来大家会往这个方面多考虑,我们会有更好的发挥空间,谢谢大家。
雷锋网报道。
专题