商汤科技杨帆:AI落地的关键是算法闭环

2017-12-01 10:15 比特网

打印 放大 缩小

人脸识别技术,曾经是反乌托邦的科幻小说中出现的想法,现在可能正在成为中国日常生活的一个特色。

广东深圳已经有了人脸识别抓拍行人闯红灯的示范路口,如果你闯红灯的时候被摄像头拍了下来,下次你再试图闯红灯时,你的脸就会出现在街道旁边的显示屏上,显示屏上还会出现一行字:“人脸识别智能抓拍行人闯红灯”。

人脸识别技术已经成为监视领域最有力的新工具之一,地铁站、机场、海关都在使用这项技术。刷脸取款、刷脸支付、刷脸登机等新应用更是层出不穷,刷手机的时代仿佛也才到来没多久,刷脸时代已经来势汹汹。

今年9月下旬,一段被称为“中国天网”监控视频的视频片段在新浪微博和朋友圈里疯传,视频展示了我国最新实时行人检测识别系统,该系统可以实时监测区分出机动车、非机动车和行人,并能准确识别出机动车和非机动车的种类,以及行人的年龄、性别、穿着。而这个系统的背后,其实是商汤科技的Sense Video技术。

主打人脸识别技术的商汤科技成立于2014年10月,其核心创始人汤晓鸥,同时也是香港中文大学教授,领导着计算机视觉实验室,这一特殊的跨界身份似乎也预示了为何商汤科技未来能够横跨学术和商业两界并取得亮眼成绩。商汤科技目前拥有140位博士,2016年ImageNet大规模视觉识别挑战赛中,商汤科技联合香港中文大学一举揽下三项冠军;近日,商汤科技与香港中大-商汤科技联合实验室,继以23篇论文横扫CVPR后,又以20篇论文力压群雄称霸ICCV,在全球顶级视觉学术会议上刮起了一阵中国旋风。而在业界落地方面,商汤科技的产品遍布金融、安防、互联网娱乐、AR、智能手机等多个行业场景,与华为、Qualcomm、中国移动、小米等众多公司都达成了合作。2017年7月,商汤科技获得4.1亿美元B轮融资,成为史上人工智能最高单笔投资,直到11月2日旷视科技获得4.6亿美元C轮融资再度刷新这项纪录。

人脸识别大行其道,不免让人对这项技术及其背后的公司产生了许多好奇。人脸识别技术到底有何门道?它经历了怎样的技术演进历程?各家公司宣传的识别正确率百分之99点几后面的小数点真的有区别吗?人脸识别技术在商汤是如何落地的?它带来的安全性问题如何应对?带着这些问题,InfoQ记者来到了商汤科技(下文统称商汤)在深圳的办公室,对商汤科技联合创始人、副总裁杨帆进行了专访。

商汤到底是一家什么样的公司?

提到商汤,大部分人第一反应就是人脸识别,但人脸识别并不足以定义商汤。

在杨帆看来,商汤是一个坚持人工智能原创技术的平台服务提供商,它利用原创的AI技术给不同的行业提供平台化服务、赋能各个行业,让AI技术真正地去改变每个行业。“当然目前来说,我们的工作主要集中在人工智能的计算机视觉,也就是图像和视频分析的这个领域。毫无疑问,人脸作为一种非常特殊且具有极高价值的影象标识,会是整个图像视频分析领域中占比重非常大的一部分。但同时商汤还经常给不同行业提供其他解决方案,涵盖范围会远远超过人脸识别。”

计算机视觉技术的发展和突破

深度学习使CV真正从学术界走向工业应用

杨帆在计算机视觉技术领域沉浸多年,在微软任职期间,他主要从事计算机视觉、计算机图形学等领域的新技术孵化工作,包括人脸识别、图像物体识别、人像三维重建等;目前商汤的核心技术也是以人脸识别、智能监控、图像识别等为主。作为主导技术落地的负责人,杨帆笑称自己是给公司的研究员们打下手的,但回忆起计算机视觉技术的发展历程,他表示还是有很大的感触。

上世纪90年代末期,有一波所谓的人工智能,或至少是人脸识别的热潮。当时在实验室环境下,人脸识别已经能够达到一个相当不错的结果,但离实际应用还是有比较大的差距。从2004年杨帆进入微软实习开始,到2010、2011年这段时间内,计算机视觉领域的技术进步一直在持续,但主要还是积累期,整个行业的技术进步相对比较缓慢,基本没有太多新的应用和机会。到了2011-2012年,随着硬件设备计算能力的进步,以及各大公司开始具备收集海量数据的能力,深度学习变得越来越实用,给行业带来了巨大的改变,从那之后计算机视觉技术就进入了一个特别高速的快车道。计算机视觉技术从学术界蔓延到了工业界,在各行各业都有了越来越多广泛的应用,这是外因。

从内因角度来讲,这一轮以深度学习为核心的视觉技术,对数据的依赖更强了,核心技术研发能力提高了,而且最终得到的成果普适性也变好了。杨帆回忆道,“我以前在微软做过一些人脸识别的工作,在深度学习出现之前,你做一个算法能够把肤色的问题解决得很好,但它可能对光线的问题就很难适应。假如你想要一个对光线适应很好的算法,它可能对肤色问题又解决不好,它的技术突破是单点性的突破。”

而今天,伴随着海量数据的应用,很多识别技术会变成一种相对通用的方法论,可以以更低的成本、更短的时间,快速迁移到不同的领域上,这其中的价值非常巨大。随着人工智能技术的发展,虽然它难度依然很高,但是它的不可知性和风险已经大大降低,在这种情况下,就会有越来越多的企业愿意投入力量到这些技术的研发中,从而带来更大的价值。

以前只有世界顶尖级别的公司才会成立研究院,去做核心技术研究,比如贝尔实验室、微软等。但是今天你会发现完全不一样,我相信未来整个技术在不同行业的落地,对于整个业界生态会有比较大的改变。

基础研究和应用科研,二者不可偏废

业界曾出现一种批评的声音,称现在很多公司和开发者其实对于深度学习的运作原理并不清楚,只知道应用,却不知其所以然。对此,杨帆也有自己的看法。

杨帆表示,学术界有两套观念,一套观念说知其然不知其所以然是离经叛道、是不对的。对于这个观念,杨帆表示认可,其实现在已经有很多团队,包括商汤也投入力量在进行更加前沿、更加基础性的科研,“这样的基础科研能够指导我们将来在正确的方向上走得更远。”但杨帆认为,基础研究与应用科研,二者不可偏废,完整的科学体系和持续的方向性指引非常重要,但是实证科学也非常重要,企业最终还是要以技术落地的结果说话。

脱离场景谈识别正确率毫无意义

近几年,很多公司在人脸识别技术上投入了大量的研发并取得了亮眼的成绩,其中识别率一直是各家宣传的重点,今年我们能在各类报道中频繁看到各种99%、99.4%、99.8%,如何理解这些识别率中小数点后面数字的差距?

技术指标是没法一概而论的,任何一个技术指标背后都隐藏了一大堆的假设条件。

杨帆列举了几个例子,比如在金融场景做1:1的人脸识别,用于互联网金融的注册,这与在家用相册中做人脸识别,也就是把照片集中同一个人的照片找出来,以及在安防场景中,根据模糊的照片在一个海量的逃犯库中找到特定的人,这些场景都是人脸识别,准确率可能都差不多99%、或者99%点几。虽然企业这么宣称,但实际背后蕴含的差异是非常大的,它会有非常多影响因素,所以准确率跟行业背景以及前置假设会是一个强相关的关系。而不同的场景下取得的识别准确率很难做类比。

相比不知前提的识别正确率,更为重要的是,在不同的场景下,企业是不是能够使用原创技术真正地取得突破。在互联网相册的应用场景下,商汤可以说是全世界第一个让计算机的人脸识别超越了人类,而后续很多智能相册的业务和服务都脱胎于这项突破。在杨帆看来,当公司面临一个新的行业场景,和过去的场景不一样且遇到新的挑战的时候,是不是能够率先去形成量变的突破,这才是最重要的。当技术沉淀、数据积累和对业务场景的理解,三者融合在一起的时候,才能帮助公司完成一个真正有价值的、有意义的技术突破。

当识别率达到99%以后,人脸识别技术面临的难点主要在于,如何在不同行业场景中深化这项技术。虽然看上去99%的识别率已经很高了,但不同行业场景对于识别率的要求不同,99%可能只是该技术得以使用的入门条件,比如银行身份认证服务,如今商汤人脸识别的误识别率已经可以做到10的负7次方,相当于7位银行密码,但在这个场景下也才刚刚得以使用;而安防场景下,照片模糊、有遮挡、角度不佳都给人脸识别带来了更现实的挑战。

“看似同质化很强、很简单的人脸识别,细分的技术场景其实非常复杂,所以脱离场景去谈技术是没有太大意义的,今天能看得到的,包括以安防、手机这样的一些重点行业为代表,对于真正的人脸识别技术的全面深化存在着非常多的挑战,值得我们去攻克。”

图像和视频分析比你想像的更复杂

图像和视频分析其实是一个从功能或者从能力角度来看都比较复杂的技术体系,当我们将一项技术落地或深化的时候,它可能需要几个团队合作完成。

商汤在计算机视觉技术领域的探索工作大致可以分为图像增强、物体检测和分类、算法模型、训练引擎等几个方面。

图像智能化增强是图像和视频分析的第一步,虽然今天照片和视频的采集设备已经非常好了,但图像和视频的采集还是经常面临困难,比如用红外摄像头以及结构光摄像头,拿到的深度图信息里面的噪音非常大,或者用安防设备拍摄高速运动的物体时会因为运动而导致模糊,因此分析前需要现对这些图像和视频进行智能化的增强和恢复,又叫做Low Level Vision,这在商汤是一项独立的的工作,目的在于提升采集到的图像和视频的质量。

而图像和视频的识别及分析又可以细分成多个部分,包括物体检测,知道一个东西在哪里;物体的关键点定位,知道物体的关键轮廓和形状;物体的分类,就是对于找到的物体,能够知道它是什么东西;整个区域的分割,对整个物体的边缘或轮廓有非常清晰的描述。实际上,整个识别体系可能需要分成若干个不同的子领域,在真正的行业应用中,它往往是一些子领域叠加组合的应用。

商汤有专门的团队进行基础研究,比如如何将算法小型化,使之能够在资源受限的移动终端上运行;如何优化算法使之运行得更快;AI核心的训练引擎或操作系统的持续升级和演进;弱监督或无监督学习的研究,包括增强学习、迁移学习等前沿技术。

杨帆强调,从计算引擎到数据流程架构,更重要的意义其实不在于数据量,而在于让算法形成一个稳定的闭环。

责任编辑:陈群(QT0001)