在国内新兴的诸多技术型创业公司中,从事计算机视觉识别的格灵深瞳团队给人一种很神秘的色彩。据说他们的成员都在来自海内外一级名校的学霸,要加入他们比进哈佛大学还要困难;据说格灵深瞳的投资人,给这个团队的未来市场估值达几千亿……那么,格灵深瞳如何看待自己的事业和团队文化?不久前,来到格灵深瞳的办公场所,颐和园北面一座临河的古色古香的四合院内,CTO俱乐部采访了格灵深瞳CTO赵勇。赵勇是美国布朗大学计算机工程系的博士,毕业后供职于Google总部研究院任资深研究员,他也是Google Glass最早期的核心研发成员,2013年4月作为联合创始人创立格灵深瞳。
CTO俱乐部:你们公司的名字“格灵深瞳”很特别,能讲讲它的由来吗?
赵勇:格灵深瞳最先有一个英文名字,叫Deep Glint,对于Deep(深度)它主要有两方面的寓意:第一,我们做的是三维深度视觉;第二,我们采用了深度学习的方法。我觉得这两个概念是计算机领域过去10年间最伟大的概念,所以我希望我们公司的命名一定要和“深度”有关。那Glint是什么意思呢?它的原意是反光、闪耀,比如常用的应用场景是人的眼眸啪地闪烁一下,好比日本漫画里那种又大又有闪光的眼睛。一双闪烁着光的眼睛意味着是有灵性的、智慧的眼睛。我们原来打算把中文商标注册成“深瞳”,但没有成功(有一部同名电影把相关商标申请了),便换成“格灵深瞳”。
CTO俱乐部:如果用清晰、简洁的话语来描述,格灵深瞳正在从事什么事业?
赵勇:Visual Understanding和Artificial Intelligence。Visual Understanding指“去理解视觉信号”,比如对于一张拍摄下来的照片,去解读它里面发生了什么事情。 Artificial Intelligence是基于你对这个世界的观察,产生一些判断的、思维的结果,能够形成一个感知系统。它的范围可小可大,比如我的朋友李志飞做的“出门问问”App,你说一句话“我想买一碗炒面”,它就能帮你寻找附近的饭馆;比如我另一个朋友余凯在百度做的工作,可以通过照片来识别出具体某个人;还有我的老东家Google做的无人驾驶汽车,它可以自动把乘客从A点运动到B点。以上例子都属于Artificial Intelligence。格灵深瞳的事业就是基于Visual Understanding做一些Artificial Intelligence方面的应用。
人工智能PK人类智能:是否具备创新和情感
CTO俱乐部:据我所知,现在语义识别、图像识别的技术都不是特别成熟,而关于你们的Visual Understanding层面,举例说在具体社会风俗环境下,可能人的手势或者特征的意义不同,对上述问题你们有没有从技术上提炼出一些框架性的原则?
赵勇:没有,所以你必须很好地界定你的问题范围。如果有人问我说,机器人、人工智能会不会把人杀了?如果把杀人(或者绣花)当作一个高级的行为,那么现在人工智能还处在一个饮毛茹血、刀耕火种的年代。所以我们基本上是先做一些简单的事情,把肚子先填饱。但这些简单的事情只要能交给机器人去做,它也会变成一件伟大的事情。我们经常对外宣称,我们的使命是让计算机看懂这个世界。但世界很大,所以我们先一步一步地看。我们现在的目标是先看懂两件事,第一件事情是人,第二件事情是车。我们看人包含哪些内容呢?它有四个层次,第一个层次是微观层次,比如你的脸和手、你是谁、你的手在做什么;第二个层次是肢体动作,你是不是在跳舞、跳的是什么舞、你有没有在打架等,坦率地说,我们现在不能识别你跳什么舞,但可以识别你是不是在打架、你有没有在求救等;第三个层面是在一个摄像机里面,你是怎么运动的、你旁边的人是怎么运动,以及你们俩之间有没有什么关系;第四个层面是最高的层面,叫Visual Sensor Network,就是把前面三层都联网,这样你就有了更多的数据,比如一个人既在摄像机A又在摄像机B中出现,如果我们能够识别出他是同一个人,就有可能为这个人建立一个更长的轨迹,从更大的范围内去分析他的行为。
2015年起,我们将投入很多精力去研究车,因为车是人类行为的一种识别。现在中国每年有很多人死在交通事故中,因此如果我们能够利用人工智能解决安全问题,也将是一件功德无量的事情。此外,对于车辆行为大数据的挖掘,对城市管理和节能环保也会有重要作用。
CTO俱乐部:说到人工智能,电影《黑镜子》里面塑造了一个完全和真人一样的虚拟男友。人工智能将来是否有可能在技术上完美到能取代人类?
赵勇:我发现对于人工智能保持乐观的人都不是专业人士,专业人士一般都是保持悲观的。小说家可以写出非常美妙的东西,甚至一些游戏厂商,把游戏人物的行为也叫AI,但他们只是制定了一些行为模式,然后根据一些判断条件,生成不同的结果,所以这些表现都是预演好的,并不是真正的AI。我们现在真正能在科学上实现的AI是在感知层次,这两年无论是“深度学习”还是“机器学习”,都是范例教育,就是说我们把计算机当成一名学生,给他很多Sample,告诉他意义是什么。如果你的训练方法足够好,计算机系统便慢慢学会了它们,比如图像识别。可能现在猫狗识别不能很精确,但人脸已经很精确了,甚至超越了人识别的能力。但所有这些,本质是我们人类在教会计算机学习并重复一些人类会做的事情。如果让AI超越这个层次,让它去创造一个新东西,哪怕很微小,机器都没有办法做到。比如我某次去天津,发现路上的红绿灯是两个灯,不像北京那样是三个灯在跳跃,我们自己一般瞬间就能理解它,但却没有办法教会计算机去理解这样一个新型信号灯是什么意思。
另外,人类智能其实还有一个重要的组成部分叫“情感”,它是人类超越动物的重要标志。仅从结果来看,你会发现越高级的动物情感越丰富。尽管情感会使你在一个很困难的情况下做一些在短期内看并不理智的事情,但从长期来看,它对物种生存的帮助很大。比如所有的有情感的哺乳动物都会抚养子女。情感和逻辑思维之间到底是什么样的关系?目前我们还没有研究清楚,但当我们到这个层面来讨论时,其实已经超越了人工智能研究的范畴。在我看来,人工智能自身是没有意图的,它就是一个工具。
CTO俱乐部:能否畅想一下在计算机识别领域,未来有哪些发展趋势?
赵勇:我觉得从技术层面,大概分成两种思路去发展。第一种像百度那样只做识别,用户把数据给你,然后你提供一个答案。比如回答某张照片里面有没有海滩、落日等。也许你会问,难道我自己不懂这些吗?但当一名用户有1万张照片,因为要做PPT急需一张海滩落日的照片时,这样的识别技术就产生效率了。第二种是机器人型的,就是不管你问或者不问,它都在那里工作。比如我们的监控摄像头,无论是在安全领域、娱乐领域或者是商业分析领域,它都可以自动工作、搜集数据并且自动执行分析程序,给人一定的指导建议。比如一些商圈广场,如果装了我们的设备系统,它就能通过数据分析,建议商圈运营方“将店A换成另一家店B吧,因为在那么重要的位置,店A却吸引不了顾客流”等。格灵深瞳做的就是机器人,做监控系统时是监控机器人,做视频开车时则是安全驾驶机器人。
人才标准:每一个新人都是最强的
CTO俱乐部:听说你在很多大公司的实验室工作过,比如三菱电器研究所、Nvidia实验室、惠普实验室和Google实验室等,它们的研究文化有哪些不同?格灵深瞳和哪一家实验室的风格比较像?
赵勇:这几家实验室都在美国,其中有两家是日本公司(三菱电器、爱普生),比较有意思的是,这两家日本实验室中的研究员基本都是美国人。总体来说,三菱电器、爱普生和惠普实验室风格比较古板、严谨,Nvidia实验室稍微好一些。我在Nvidia实验室工作时,那里总共只有18名研究员,只有4、5个人在总部,其他的人都在家里工作;而且我跟我的导师,整个夏天就见过一面,因为他那个夏天正在骑自行车横游美国,只是偶尔打个电话给我——大家就是在那样的状态下工作。记得分配任务的时候,我问导师我的任务是什么呢?结果导师说,“这样吧,你先花两天时间想一下你的任务是什么,然后你接着去做就是了”。Google是最不一样的,我到Google去时,问了领导同样一个问题,我的任务是什么?他回答说是Making Friends。他认为公司这么大,我应该先去各个部门玩一玩,交些朋友,看看能不能帮助他们解决一些问题,因为“我们最终解决的问题是来自于现实的”。就是在这个过程中,我通过和几个同事的交流,一期启动了Google Glass项目。后来我在Google工作了一年多后,成为了PI(Principal Investigator),开始拥有了自己的Funding,可以根据自己的项目经费来决定自己做什么项目,申请多少工程师来自己的项目小组。因此Google实验室的文化氛围是我见过的所有美国公司当中最自由的,是我个人最喜欢这种方式,所以格灵深瞳的研究文化也最接近Google模式。现在和大多数互联网公司一样,我们对于技术研发人员不做考勤,我自己也尽量削减在技术团队中的权威形象,把组织结构扁平化,使得大家有更充分的时间和精力去考虑如何做出更多的贡献。
CTO俱乐部:曾经看过你们的招聘广告,听说要加入你们团队比进入哈佛大学还难,你心目中的人才标准是什么?
赵勇:从某个角度来说,美国普通大学生进入哈佛大学的录取率是6%~8%,这比我们高多了。对于人才的标准,我们技术部门其实很简单,我先讲个故事。当我从Google辞职时,去找一位曾经的领导,希望他给我一些建议。他叫Peter Norvig,曾是NASA(美国宇航局)的Research Director,曾经管理过2000多名研究员。他加入Google时,当时Google只有19名员工,他成为第20名员工,负责Google的研发和技术招聘。他给我提供了这样的建议:在任何时候,你都要确保你们招的这个人在某一个你关心的方面比你们每个人都强。他说如果你持续这么去做,你的团队会越来越强。所以我刚开始创建技术团队时,就是这么做的(实习生例外)。当然现在我们团队规模扩大了,策略就调整成:每次招聘的人,所有参与面试的同事都要给他投票,从0分到5分,3分是平均分,这是什么概念?3分就是我们团队哥们几个目前的水准,如果来面试的新人低于3.5分,我们就不会考虑。