特稿 >

行业洞察 >

SenseTime:边教计算机看世界,边挑战巨头

SenseTime:边教计算机看世界,边挑战巨头

Xtecher 丨 行业洞察

38488
4567

2016-03-11

J小妹

Xtecher特稿作者

关注

谷歌的AlphaGo围棋AI又一次成功将人们的目光吸引到人工智能处。若干年之后,它的名字将会和深蓝、Watson、Siri、小冰一同出现在人与机器“相爱相杀”的纪念册上。

 

有意思的是,在人工智能与人类的数次“过招”中,你方唱罢我登场的都是Google、IBM、微软、Facebook等这样的大公司,却鲜见创业者的身影。其中一个重要的原因就是,巨头们将尚未成熟的人工智能市场看作是下一个风口而争相抢夺,顺势也将不少创业公司收入囊中。AlphaGo的研发团队DeepMind即是这样被谷歌收购的。

 

但这并不意味着垄断,因为幕布刚刚拉开。当我们谈论人工智能的时候,我们其实是在谈论一个无比庞大且复杂的技术体系,和一种亚文化形态。其中的每一个分支领域,都有可能再度孕育出可与科技巨头们媲美的后起之秀。


SenseTime(商汤科技)就是这样一家专注于计算机视觉和深度学习原创技术的挑战者。通过赋予计算机视觉感知和认知的能力,SenseTime能够让计算机能像人一样获取、分析、理解各种视觉信息,并与自然界进行交互。

 

这家刚刚成立两年左右的创业公司,不仅在多个国际级竞赛中成绩斐然,还超越谷歌突破互联网物体检测的世界纪录,跃居世界第一。作为公司的CEO,徐立并不掩饰SenseTime未来发展的雄心,“在人工智能领域要做就做第一”。



知人识物“黑科技”


顾名思义,“计算机视觉”就是研究计算机如何才能像人眼一样看见东西。从广义上讲,它从属于人工智能的技术体系之下。我们通常说到的“人工智能”,其终极目标就是要让计算机在各方面都像人一样,如听觉、视觉、触觉、甚至思维方式等等。

 

如果计算机拥有和人类一样、甚至超越人类的视觉能力,对于人工智能的发展而言意义非凡。基于此,SenseTime的团队希望教会计算机看懂这个世界。有意思的是,他们首先把这项“黑科技”应用在了自己人身上。


和所有低调的科技创业公司一样,SenseTime的办公室座落在清华科技园一座非常普通的大厦里。但是一进门,你立刻就会感受到与众不同之处,因为充当watch dog和记录考勤的是一个装有摄像头的大屏幕。当有人走进这台“神器”的“视线”里,他的脸就会显示在屏幕上,并被机器识别到这个人是否为公司员工。当大家还在忧心于“不带工卡影响考勤”时,SenseTime的员工已经过上了如今流行的靠“刷脸”生活的日子。

 

这只是刚刚开始。在办公室的休息区,还伫立着另一台“神器”。一旦有人站到它面前,它就会以迅雷不及掩耳之势识别到人脸,并计算出对方的“颜值”,还包括性别、情绪指数、年龄以及是否戴眼镜等面部特征。最后,顽皮的它还会根据这些指数计算一个“今日魅力排名”,并给出一个与此人最相似的明星人脸。

 

当记者站在这台神器面前时,它给出了“魅力值77”“欢乐值91”“(情绪)开心”“(戴)眼镜”“(年龄)27”等基本准确的指数。最终,记者得到“今日魅力排名No.6”,“帅过78%的用户”的数据,同时最相似的明星人脸是霍建华。此刻我的内心OS是“Hmmm……not bad”。

 

作为一台机器,它似乎“知道”如何引起人们的关注,也喜欢人们对它进行“挑逗”——这大概就是SenseTime教给计算机的“知人”技能。

 

人工智能与人类之间最理想的关系莫过于积极互动,这种互动要么给人带来情绪上的波动,要么就切实帮助人完成某项工作。当它发挥前者的作用时,其角色应该是陪伴型机器人,尽管偶有失误,也会因此显得更加“人性化”,而不是拒人于千里之外的精确和冷淡。



sensetime2.jpeg

SenseTime CEO徐立展示人脸识别技术的应用 

 

如果说“刷脸上班”和“颜值比拼”的意义更多地是给人带来乐趣和便利之外,那么SenseTime办公区的第三台“神器”真正是为帮助人类而设计的。这台神器的主要构成是计算机和特制的外接摄像头,后者负责精准捕捉并识别多种姿势的人脸,然后进行连续拍照,前者负责负责对这些照片进行大数据分析,二者配合可以在安防领域大有作为。

 

当记者看到自己不同姿态下的面部特征被它敏锐地捕捉到并显示在大屏幕上时,瞬间有种穿越到美剧《疑犯追踪》剧中的紧张感。人只有一双眼睛,无法360度看到自己的全部外表,此时计算机就像“上帝之眼”一样,它以自己无所不见的“超能力”启发着人类,它能看到人眼无法触及之处。

 

再次环顾四周,整个办公区里平静如常,但对于体验了三台可以知人识物的神器之后的记者而言,计算机之眼无处不在,平静之下有人工智能的汹涌暗流。

 


最强算法  强强联手


计算机怎样才算看懂世界?目前在人工智能领域,计算机视觉是一个公认的亟待解决的难题。由于在公共安全、移动互联网和娱乐等领域拥有巨大的潜力,因而该技术的发展水平也成为检验人工智能是否成熟的重要标准。

 

去年,谷歌晒出一组诡异的图片引起了人们的好奇。这组图片上的图像看起来好像来自外星球,实际上这就是人工智能眼里看到的人类世界。人们在觉得不可思议的同时,也很好地科普了一个真相:教计算机看懂人类世界并不是一件容易的事。如果计算机能看懂人类世界,就好比盲人的双眼复明,会整个提升人工智能技术的水平的等级。

 

sensetime 3.jpeg

SenseTime 人群分析技术


正是由于这个原因,如今致力于人工智能的公司们都在手把手地教计算机“睁眼”。在这个领域,谷歌、Facebook这样的巨头也并不会天然就能胜出。身为创业公司的SenseTime却势如破竹,在2014年和2015年间频繁与巨头们同台竞技,在技术上获得多次世界性的突破,留下堪比牧羊人大卫打败巨人歌利亚的英雄事迹。

 

2014年9月,SenseTime的科学家们首次出征 ImageNet竞赛,在大规模物体检测比赛中以40.7% 的成绩获得世界亚军,仅次于谷歌的 43.9%;2015年3月,该团队将此成绩提高到50.3%,超越谷歌,达到世界第一的水平,并将这一成果以论文的形式发表在2015年国际计算机视觉与模式识别大会(CVPR)上。

 

ImageNet是一个什么级别的竞赛呢?有业内人称之为计算机视觉领域的“奥赛”,其每年的竞赛结果都对业界和学界起到风向标一样的作用。ImageNet每隔一段时间就会增加一项学术和工业界公认的最难的任务,图像中的物体检测是2013年新增任务,当年最好的算法准确率只有22.6%。

 

2015年,ImageNet新增了一项视频物体检测的任务,比静态图像中的物体检测的难度更高。SenseTime联合香港中文大学媒体实验室组成的团队再次出征。最终,团队在ImageNet视频物体检测竞赛中检测一举夺得数量、检测准确率两项世界第一的成绩,以压倒性的优势击败了对手。成为首个在ImageNet夺冠的中国企业。

 

SenseTime的原创图像物体检测技术能够以毫秒级的速度识别出图片中的人类、动物、家具、食物、车辆等物体。这一技术在此次竞赛中大显身手。作为一个年轻的创业公司,不仅能够与世界一流的高校团队和业界大佬同台竞技,还能够取得如此优异的成绩,SenseTime的确令人侧目。其表现也获得了“队友”香港中文大学媒体实验室的高度肯定。

 

如同所有高歌猛进的创业公司,规模上的稳步扩张与技术上的一贯领先同样重要。SenseTime在2015年年底刚刚完成并购了另外一家人脸识别技术领域的创业公司Linkface。后者也是一匹创业黑马,同样拥有诸多超越业界大佬的出色成绩单。



linkface.png

Linkface四位创始人 


在机器和人类PK的历史上,人脸识别技术的突破也必将留下浓厚的一笔。世界上首个超过人眼识别准确率的团队就在Linkface。而Linkface研究员基于深度学习的人脸识别算法,就在全世界最权威的人脸数据库LFW(Labeled Faces in the Wild)平台上达到99.55%的人脸识别准确率,打败了Facebook,也远超人眼识别能力;另外,其基于深度学习的人脸检测创新算法,也在全球最具权威的人脸检测平台FDDB的公开测试中,92.5%的准确率被FDDB评为世界第一,随后迅速收获了中国银联、科大讯飞、华为、京东金融、英伟达、美图秀秀等一众长线合作伙伴,在业内掀起了不少舆论波澜。有一位在计算机视觉领域的资深人士告诉记者:“在2015年业内的大小峰会上,除了常设议题之外,又多了一个最热话题——Linkface。”

 

看得出,Linkface也如SenseTime一般拥有“大卫挑战歌利亚”的精神。战胜谷歌的团队和打败FaceBook的团队走到了一起,堪称图像识别和人脸识别两大领域最强算法团队的强强联手,正式吹响了中国在人工智能领域原创技术的集结号。


  人才黑洞 致命引力



罗马不是一天建成的,也绝不可凭一己之力达成。同样,SenseTime要想打造一个强大的计算机视觉帝国,也需要汇聚业内最顶尖的人才。

 

假如再仔细探究的话,SenseTime从骨子里的基因就与国内其他创业公司不同。当一众面目模糊的孵化器们流水线般制造创业公司时,当别的创业者们亦步亦趋地向硅谷人学习辍学创业时,SenseTime反其道而行之,把高校及其实验室看作是一座取之不尽用之不竭的金矿。其人才也大多来源于这座金矿。

 

目前,SenseTime的团队里有来自MIT、斯坦福、香港大学、香港中文大学、清华大学等数十名深度学习科学家,以及谷歌、百度、微软、联想等产业界领军人物。可以说是聚集了华人中最出色的一批深度学习和计算机视觉领域的专家。其中,公司的研发团队有超过50多名博士全职任职。该团队在三大国际顶级机器视觉会议CVPR、ICCV、ECCV上共发表论文超过150篇,在亚洲企业中排名第一。

 

光罗列这些名称和数字也许说服力还不够,我们来具体看看SenseTime聚集的到底是些什么样的科学家:



戴宇荣博士,两任ICCV(国际计算机视觉大会)领域主席;80余篇著作发表于顶级会议期刊;韩国科学技术学院(KAIST)终身教职; 2011年KAIST杰出教授;微软学者。为加入SenseTime而放弃终身教职,因为他更看中SenseTime能将技术转化为业界实际成果的优势,以及其在人才和资源方面对于科研的助力;

 

张伟博士,安徽省高考状元,本科就读于清华大学,并于香港中文大学获得博士学位,曾在Kaggle数据科学家排行榜上排名第六,亚洲科学家中排名第一。放弃对冲基金CTO加入SenseTime。


孙祎博士,本科就读于清华大学电子系,并于香港中文大学获得博士学位,人脸识别算法DeepID系列发明人。超越人眼识别准确率,打败Facebook。


周斌博士, 中国首位HPC(高性能计算)和GPU(图形处理器)跨领域研发高级工程师,他是全球第12个NVIDIA CUDA Fellow称号获得者,也是目前中国唯一一位获得此称号的学者;

 

邱石博士,清华大学电子系第一名,并于香港中文大学获得博士学位,2014 年,邱石所在的DeepID-Net 团队首次参加ImageNet 大规模物体检测任务比赛中,并以 40.7% 的优异战绩位居第二名,仅次于谷歌。

 

石建萍博士,微软学者,谷歌奖学金,香港政府奖学金,从浙江大学到香港中文大学,从本科时代顶级会议CVPR 第一作者Oral 到加入创业团队。

 

夏炎博士,微软研究院计算机视觉博士,中科大第一名,郭沫若奖获得者。专注深度学习,文字识别。

 

曹旭东,深度学习专家。清华大学物理系,前微软研究员。其开发的现象级产品如How Old.net 有数亿用户。该技术广泛用于微软产品,如Xbox。



一个创业公司却对学术大拿拥有不可抵抗的吸引力,这令SenseTime像一个“人才黑洞”。究其原因,之前深藏于实验室的计算机视觉技术已经足够成熟,到了将科技成果转化为实际应用的时候了。正是由于这样强烈的学术气质及其与业界的紧密结合,决定了SenseTime在与谷歌、Facebook等巨头同台竞技时毫不逊色。

 

当然,SenseTime的学术气质也与其核心技术是基于机器学习的人工智能算法有关。它并不研发具体的软件或者硬件,而是专注于核心算法,再通过与应用层级的公司合作的方式将自己的技术部署到各种各样的产品上。目前,这种模式在SenseTime身上运转良好,计算机视觉领域的下一个杀手级应用大概就会从这里诞生。

 

在人工智能风口浪尖,众多海豚在海面上追逐,而SenseTime的崛起好比一只深藏海底的鲸鱼正慢慢浮出水面。更重要的是,对于中国科技界来说,这也许是中国本土首个能在计算机视觉、人工智能领域以原创技术与国际巨头全面抗衡的企业。风口已至,Time to make sense。



文章来源:时间线

微信公众账号:「TimelineMag」

作者:李芳

略有删减

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机