金融界网站6月16日讯 华泰证券中期策略会6月16-17日在上海举办,九十余位行业专家,上百家上市公司高管参会,策略会以“拨云睹日,藏器待时”为主题,旨在为投资者提供一场思想盛宴,金融界网站全程直播报道详情。
小i机器人的朱频频博士认为,人工智能从2014年下半年开始进入了第三次高潮。下半年开始,人工智能开始如火如荼的出来了,各大公司也投入非常大的精力。谷歌收购了若干家人工智能和机器人公司。阿尔法狗战胜了世界围棋冠军,在三月份的时候震惊了世界。facebook在人工智能投入方面比谷歌还要专注,Torch主要是深入学习的,是第一个被开源的框架。另外还收购了人脸识别的公司等等。
以下为文字实录:
【主持人章诚】:大家下午好!我是华泰证券的机器人研究员,我叫章诚。首先跟大家做一个整体的对我们这个行业的汇报。我们自己觉得未来中国很有可能会进入一个新的阶段,在整体这些高端制造,包括智能制造方面会出现非常多的政府的政策推动以及优秀的公司出来。所以说今天我们也非常荣幸的邀请到了三位重量级的行业领袖帮我们分别阐释自己公司以及自己行业的一些看法。专家层面分三个,第一位是来自小i机器人的领导,跟大家分享智能机器人行业以及公司在智能云平台上的一些发展战略。第二位嘉宾是科大讯飞的领导。第三位是分享中国未来发展的前景。未来很有可能会构成我们在智能机器人和新部件当中的一些很重要的领导,所以说希望今天的这些演讲给大家有一些收获。谢谢大家。
下面有请朱博士给大家做发言,谢谢。
【朱频频】:大家下午好!今天我跟大家分享一下我们小i机器人对于人工智能和人工机器人产业发展的认识和我们拓展的一些经验,也把我们小i机器人对于未来整个战略的布局跟大家分享一下。
最近人工智能非常的热,大家动不动就提到人工智能,提到很多相关的名词。前几年的时候,我们谈云计算、大数据,现在说人工智能。其实这几件事情中间还是有很大的关联的,没有云计算和大数据作为基础,人工智能也不会迎来现在的又一轮的高潮。
其实人工智能并不是一个新的名词,很多人说今年是人工智能60周年,因为人工智能这个名词是60年前所诞生的,1956年在美国开了一个会议,确定了人工智能这个名词。当时很多人说计算机有很强的计算能力,可以取代部分人类的工作,就是因为期望过高,实施的方法却没有很好的实现我们的整个目标,结果造成了1970年左右,人工智能进入了第一次的低潮。
后来有一些新的战略思路和新的方法不断的出现,又一次的高潮是日本生产第五代计算机,但是第五代计算机最终失败了。所以当时在2000年左右人工智能进入了第二次的低潮。大家对人工智能的期望还是过高,当时的技术或者是说产业应用与人的期望有很大的差距,所以造成了大家对此的投资会降低。
目前,人工智能进入了第三次高潮,从我的观点来看是2014年下半年开始。下半年开始,人工智能开始如火如荼的出来了,各大公司也投入了非常大的精力。谷歌收购了若干家人工智能和机器人公司。阿尔法狗战胜了世界围棋冠军,在三月份的时候震惊了世界。facebook在人工智能投入方面比谷歌还要专注一点,Torch主要是深入学习的,是第一个被开源的框架。另外还收购了人脸识别的公司等等。在一个多月前,facebook还推出了一个新的平台,这个平台非常像微信里面的公众平台,专门去设置和开发一些机器人,机器人是虚拟机器人,可以用对话的方式进行交互。facebook对聊天机器人也是充满着期待,等会儿我们会具体的说。
还有一个是IBM,从上个世纪生产Deep Blue战胜了人类冠军以后,现在在Waston里面投入了大量的资金。有一个非常著名的案例,就是帮助大量的数据,大量的文献自动学习和阅读,辅助医生去判断肺癌或者是更多的疾病发病的情况,能够辅助人们诊断这样的疾病,这也是IBM在做的很多的工作。
他们的动作也很快的,据我了解IBM中国也专门的成立了一个团队,在国内推广整个的Waston,第四代认知计算的整个领域。
什么是AI
说了这么多,大家都很重视AI,到底AI是一个什么东西呢?直接道路现在为止,没有一个非常明确的定义。斯坦福大学的一位教授说人工智能是关于知识的学科,怎么表示知识以及怎么获得知识并且使用知识的科学。这个定义有一点哲学的味道了,人工智能皆是研究如何使计算机去做过去只有人才能做的工作,如果按照这个定义来,人工智能的定义是在不断的发展,可能短期我们看似很智能的系统,现在觉得似乎不是那么的智能。或者是说我们想象人工智能未来可能会像变形金刚这样的东西,现在还远没有实现,现在是不是就不是我们所说的人工智能呢?按照这个概念来说,是不断的演化。
AI和IA,他们两个并没有什么本质上的不同,只是方向不一样,AI想做一个机器,能够自动的去完成一些工作,可以替代人才能做的工作。IA更多的是想让计算机或者是一些智能设备增强人的能力。我之前看到一个比较有意思的东西,叫外骨骼,穿一个外骨骼就像穿一件特定的衣服一样,让人具备非常强的运动能力,跑的比马还快,有这样的一些情况。
不管是什么样的定义,作为商业公司来说,就是把这个技术运用到不同的场景当中,为我们的商业创造价值,这是我们的目标。
从人工智能的层次来看,从非常粗的角度分,大概可以分为三个层次。第一块就是现在要实现人工智能的一些基础的资源,现在说的比较多的是非常强调计算能力,非常强调生产能力,再有一个就是更多、更好的一些数据。这些东西主要是用在什么地方呢?主要还是用在因为现在机器学习的发展,尤其是深度学习现在非常火热,对于数据和计算的替代非常巨大。有了这三个重要的能力,会对传统的人工智能方面起到非常大的促进作用。人工智能具体的技术研究,有自然语言、智能语音、计算机视觉、图象识别、人脸识别、生物特征识别、指纹的识别、眼角纹的识别,还有智能决策系统。我们以智能决策系统为例,早期是一个黑盒子,你也看不到是怎么实现的,也许里面就是一大堆的非常复杂的情况,一个黑盒子输出很好的决策的结果,稍微复杂一点,里面是会有一个评分的系统,再复杂一点,可能是需要训练出来的。现在是利用这样的大量的数据训练出来的系统。
比如说阿尔法狗就是一个智能决策系统,做法我们后面会有一点分享,主要还是从大量的数据当中训练出一些模型,把这些系统组合在一起,完成了整个下围棋的过程。还有人工智能相关的新兴的人力交互,这个不仅仅是包括语音、图象这种自然的交互方式,甚至是现在大家在做所谓的首次识别,动作识别,固态识别,还有脑机接口,现在实验室里已经出来了一些成果,用人的脑电波控制一些东西,这是刚刚开始,如果脑机接口可以把更高等的认知智能和信息做一个分享,以后我们可以想像成果将会非常的巨大。
机器翻译也是跟自然语言的处理关系相当大。现在的机器翻译可以不依赖于自然语言的理解,就是说我虽然可能很准确的把英文翻译成中文,但是也许我对里面的意思是一点都不了解的,这是跟以前传统机器的方法有非常大的不同。有了这样一些技术以后,在上面其实有很多的产业,可以应用在一起。比如说现在比较热的是智能机器人的产业,因为里面用到了视觉,也用到了语音交互,也用到了多种人机交互的模式,用到了还有很多背景的知识和常识,对外界的信息作出综合的决策,所以这是综合的人工智能系统。
还有智能终端,也或多或少的用了很多人工智能的技术,比如说现在智能家居都可以用智能的方式进行交互。还有智能家电,智能家居现在比较有名的就是被谷歌收购的一家公司,现在做的还不是特别的好。还有智能助手,比如说平时手机里面用的智能助手,比如说用在银行里面,可能是银行客服的助手,还有智能无人系统,无人驾驶汽车和无人机。无人驾驶汽车现在是一个非常热的领域,智能制造不是一个新的行业和产业,我们整个定义的话,是由人工智能附能,可以做产业升级的行业。还有智能安防,这是人工智能大的基本架构。
人工智能的发展——计算能力和大数据来看
具体的能力发展来看,刚才提到了计算能力和大量的数据。这两个技术的发展,已经有成熟的进步,比如说计算机的计算能力,大家应该非常清楚摩尔定律,18个月,CPU的晶体管数大一倍,计算能力翻一倍,但是计算的密度或者是说CPU制造的工艺是非常有限的,所以说开始在逐步的用多核并行的处理方式,也开始类似于GPU专门处理图脸计算的专业的计算设备。还有是FPGA,是半可制订化芯片。还有深度学习专用芯片,适合移动设备本地化处理能力,国内有寒武纪,也是类似于这个的。
很多人在聊,不管是什么样专业的方式,还是会有瓶颈,所以从我们人类长期的发展来说,能够解决计算能力更为颠覆性的技术就是量子计算。目前的量子计算是在实验室里面已经实现了基本的原理,逐渐的大家也想实用化。如果量子计算真的是能够到我们日常的工作当中,对我们计算性能的提升是非常巨大的,对计算能力的提升不是一个线性的提升,是一个指数级的提升,这一点非常重要。
我个人对量子计算也是充满了期望,有本书里面提到预测2045年计算机的智能会全面超越人类,很多人不信这个事,按照现在的这种人工智能的能力和计算路径来说,这个事情的确不大可能。但是我相信未来五年到十年以后,会有颠覆性的技术发生,量子计算可能就是非常重要的颠覆性的技术。
说穿了,现在所谓深度学习,比以前机器学习可以取得更好的效果,大家非常火热的在这里面探索这个事情,其实就是用计算机的计算暴力解决了很多以前需要计算方法和技巧解决的事情。很多很复杂的事情,我们可以用很简单的方法给解决掉。可以通过分布式的计算和框架来去通过多台的设备拓展这种能力,包括在大数据里面的方法,还有一些开源的框架。
Big Data和AI越来越紧密了,从大量的数据当中,去获取智能,这个也是现在所要完成的一个非常重要的使命。以前计算机智能是有很多专家赋予的,现在可以用相对来说比较通用的方法,从这个数据里面来挖掘出来。
计算机的人工智能实现方法
具体到计算机的人工智能实现的方法,我们可以用这样的图来去大致的说明一下实现的路径。刚开始的时候,AI主要还是通过一些复杂的规则系统来实现,这个概念叫什么呢?就是相当于说我们人类的专家把我们人类所认知到的一些规律用计算机能够实现的方法来去教给他们。比如说编程、规则的方法教给计算机,计算机可以忠实的按照我们的想法给执行好,计算能力也很强。这个系统比较复杂的时候,会成为非常强的智能能力。
但是这种方法有很多问题解决不了,比如说处理人脸识别的时候,你怎么去定义这种规则,这个人脸就是他,那个人脸就是他,这个很难定义规则去描述的。我们开始用统计的方法,或者是归纳的方法,这是什么呢?就是让计算机去找里面的特征和最后结果,或者是标签之间的关系,在一个模型里面让计算机去找。就是用大量标志的数据和结果,让计算机确定这个模型里面不同的参数,然后把这些归纳到一起。
比如说做人脸识别的时候,我们可以由专家来定义,这一块是非常重要的特征,这一块是非常重要的特征,根据特征,用大量标注好的数据进行训练,得出里面对应的关系,就是这个特征和最后标识之间的关系,这就是人脸识别的过程。
还要举一个例子,一个非常重要的话题就是做分词,给中文一句话,把这个词给分了。早期的方法通过规则,要做一个比较巨大的字典,让字典去分词,这能解决不少的问题,似乎也可以工作了。但是有很多的问题解决不了,比如说歧义的问题,前面一个词,后面一个词,哪一个词比较合适呢?比如说软件和服务,正常的话应该是软件名词,和是连词,再加上服务的名词。和服也是一个名词。人一看,是知道是软件和服务,但是计算机怎么知道呢?你不能列太多的规则。我们去训练,拿大量人已经标注好的数据去训练,这样可以找到一些规律出来,可以找到这个字和那个字搭配的概率,到底哪个概率会比较高。我虽然分的时候可以有几种途径,可以通过这个方式计算出哪种概率最大,分析出结果。这个就是通过经济学的方法训练模型。
深度学习
现在最流行的方式是先进技术的方式,深度学习就是其中的一个代表,所谓的深度学习更多的是指深度学习神经网络。这个过程观点在于说,之前可能是要去做一个人脸识别,需要专家去找到底哪样特征能够描述人脸的重要的特征,让专家去找。但是这个特征其实很难找,不同的专家有不同的定义方法。所以那时候图象识别的瓶颈就会局限在如何寻找这个特征,但是现在这个事情让计算机自己去做,通过深度学习的方法,让计算机自己去找,所花的代价就是计算的代价,不停的试。他所看到的东西哪些跟最后人脸识别相关,计算机有自己的途径,跟人并不是完全一样。这种方式的确是很大程度上解决了这个问题。
从规则系统到统计和学习。我们告诉他第一步干什么,第二步干什么,碰到这种情况干什么,他会忠实的执行这些工作。到了机器学习这一块,很多有统计的方法,模型有很多了,有贝叶斯网络方式,有最大熵模型,还有HMM和CRF,就是语音识别和自然语言处理等。这都是统计的模型。还包括人工神经网络的模型,在那个时代,其实人工神经网络虽然说这种方式似乎跟人的神经元和大脑皮层比较接近,但是表现得并不好。所以当时人工神经网络使用的并不是特别多,虽然这种技术在上个世纪60年代就已经实现了,但是其实并不是很多。
我们做一个形象的比喻,就像一个高级的技工或者是高级的工人一样,你不用去告诉他第一步干什么,第二步干什么,但是你要告诉他你要完成这件事情,最重要是这个事情你要注意,这个事情你要注意,然后自己形成自己的一些规律,形成自己的一些方法。这个是需要一定的学习能力的。
比如说有符号主义和联结主义,人工神经网络就是很典型的联结主义的方法。现在对于实际的系统当中,包括我们所使用的,其实是几种方法的结合,没有哪一种方法可以单独的解决这些问题。
机器自动寻找与目标最相关的特征,主要就是深度神经网络,刚才也提到了深度神经网络为什么现在这么火,这个算法究竟有多么牛,其实恰恰可能相反,是因为这种算法很简单,就是因为这种算法简单,所以具备比较好的通用性,算法的稳定性,所谓稳定性就是从上个世纪50、60年代开始到目前为止,几乎没有什么变化,这是好事,这是非常重要的好事。我们可以做大量的工作,具有延续性,我们用这些方法训练模型,是可以延续的。而且还有非常重要的特点是什么呢?深度神经网络、人工神经网络,是非常容易实现这种并行化的,这里面有一个图,你可以把整个的计算过程分割成不同的模块,每个模块单独去计算,模块和模块之间连接相对来说不是那么多,所以你可以分布到不同的计算机的核,甚至是分布到不同的计算机里面去训练,去计算。但是中间其实还是有这个连接的。
也就是说,计算的下一步会用到上一步,用到各个部门计算结果的会合。所以说在并行计算或者是叫做分布式计算里面,对性能的影响其实是非常巨大的。
我们要举一个例子,到底什么是深度学习?形象的比喻一下就像一个职业经理人一样,我们请职业经理人的目的是我给你目标,给你资源,然后你帮我去完成这个事情,我肯定不会教给你使用方法,我只看结果。现在深度学习有一点像这样的情况,你给他足够的资源,你给他计算的资源,给他一个确切的目标,找出这样的对应关系。其实深度学习找出的是什么东西呢?其实就是找出输入和输出之间的映射关系。如果说输入是一个问题,回答是一个答案,那么这个训练出来的系统就是一个问答的系统,如果输入的是一个图象,输出的是一个标签,做的就是一个图象分类,或者是图象识别。所以说关键就是如何去建立这个模型,以及如何在这个模型之下给它足够多的又好又足够的数据。
现在很多人在讨论,说哪天计算机会超越人类,所谓的真正的无监督的学习方法会出现。比如说人类还有一些非常重要的特点,对小数据的学习能力非常强,我们看几次现象就可以总结出规律来,苹果掉到牛顿的脑袋里,他有可以总结出万有引力来,这种能力是计算机目前完全不具备的,甚至这种能力是怎么发生的,大家都不是很清楚,因为并不每个人类都有这样的水平,只有天才才有这样的水平。
到那一步的话,就像一个创业者和开拓者一样,没有人告诉你应该怎么做,甚至是没有人告诉你目标是什么,我要不断的自我去激励和不断的学习。
阿尔法狗就是深度学习和相关驱动的人工智能系统,有很多地方都做过分析,我就简单的过一下。阿尔法狗里有四个重要的深度神经学习网络,快速走子、专家训练、自我提升、价值判断,前面三个基本类似,结果就是给出一个棋局,判断下一个子走的最大的可能性是哪一个,怎么训练呢?就是从大量的棋局里面训练过来的。几万局对应的棋局里面去训练出来这样的结果,按照我刚才说的,输入的是棋局,输出的是跟这个棋局对应的下一步走子的可能性。通过专家训练的结果,进行自我对应,自我对应了三千万盘,所以就创造了很多人类历史上从来没有出现过的对应的棋局的状况。人类从来没有碰到过,但是它碰到过,所以它用这些东西再去做自我的训练和提升。你想象一下这是什么概念呢?这个家伙不是那么聪明,但是这个家伙特别勤奋,在你睡觉的时候,他在不断的下棋,而且下棋的速度特别快。你可以想象他的能力能够超越你吗?从这个趋势来看,肯定会,他们那个团队非常牛,所以在三月份的时候就把人类给打败了。下一次跟柯洁去下,其实赢不赢都无所谓,长期来看一定会赢的。因为人不可能有像计算机那么勤奋,但是有可能会针对他的这些方法针对性的做一些策略。其实某种程度来说不是一个确切的结果,只是说我要做下一个动作,这种可能性会最大。从某种意义来说,具备了大局观和棋感的要素。
深度学习是目前最火热的词,给一个确切的目标、资源,可以数字化模型化的任务,理论上都可以解决。图象识别,人脸、OCR和大规模图象分类上非常好的应用,效果非常明显。这是做人脸识别的,这个图是一个什么东西呢?大家可以看一下,这个图就是计算机通过深度学习的方法,挑取的过程。在计算机的眼里,人脸长的是这样的,其他的细节被忽略掉了,因为不需要那么多的细节来表达这个人脸,他只需要掌握这样一个特征,就可以标签到这个人。
在云识别方面,有非常大的提升,自从在云识别方面进行了应用以后,大家的能力都在往上涨,语音识别的效果也是在慢慢的趋同,不同的是,大家在不同的场景,不同的领域,不同的情况之下,用不同的数据去做训练。比如说手机里面、电话里面,语音识别拿来训练的数据有些不同。
深度学习的应用
深度学习的典型应用,在自然语言做支持的机器翻译方面,取得的成果非常明显。在这个过程当中,根本就不懂这个语言到底是什么东西,只是机械的做一个对应的关系,但是对应的结果可能会非常的流畅,表达出来的句子也非常的地道。这些句子原本就是人写的句子,他的训练素材是什么呢,就是一句中文对一句英文。
在英文句向量里面是怎么做的呢?不是从词的角度来去做输入,不是用词的角度来做输入的,是用字母来去做输入,这个模型就会变成一个非常巨大的模型。一个单词有多少个字母,这个时候不是做一个整体的放到训练系统里面去,而是一个字母一个字母的放进去,希望可以找出里面更深层次的关系。这个东西训练出来的模型会非常巨大无比,但是效果会非常好。
有时候放到中文里面,那怎么办呢?中文里面没有这种字母的概念,所以可以用单字的方法进行训练,甚至是在国内有人在尝试,包括我们在做一些实验。什么样的方法呢?把一个字拆成部首,然后放到机器里面去训练,试图也找出关系,在这个实验的过程中会发现,繁体字的效果更好,这也很显然,因为繁体字里面带有词的更原始的意义所在。
深度学习存在的问题
深度学习现在的确非常火热,但是问题也是非常的多。在学术界也是到处用深度学习的方法解决这个问题,又解决那个问题,解决的问题好,就发一个很好的文章。我跟很多学术界的大佬们沟通的时候,大家也对这个非常的忧郁,大家并没有深入的研究,只是拿去做了应用。到底为什么这样?其实很多人并不知道,里面有很多的问题。参数跟系统设计是需要不断的去尝试的,现在没有特别好的指导方法,而且机器最后选择的特征不可解释,而且非常容易被干扰。在不同的任务网络里面,结果可能完全不一样。如果数据不好,还有参数选择不好,特别容易发生过拟合的状态。计算量也非常巨大,时间也非常紧。
对于NLP等认知智能,尤其大量需要上下文、背景知识、尝试等任务,目前进展有限。你可以想象这个过程,你在处理人脸识别的时候,基本上所有的数据都给到了机器训练系统,但是要去训练自然语言的时候,你给他的东西表面上是一句话,一段文本,但是这里面一句话,一段文本里面每一个词所代表的含义却是非常丰富的,尤其是映射到某一个领域空间里面的含义,你并没有告诉他这个过程,所以说这个训练只是训练一个非常表面的因素。认知智能,想要做进一步的拓展,需要大量的背景的知识和常识,才能更好的处理对话的过程。所以对我们来说,重要的工作就是借大量的这样一些背景的知识和常识,去驱动认知智能的方法,怎么获取呢?用机器学习的方法和深度学习的方法,从大量的数据里面去挖掘做这个事情。
因为非常强的计算能力、大量的重要的数据、更先进的机器学习方法,人工智能现在迎来第三次的高潮,有可能会发展非常快,有可能会迎来一个大爆发。大家也担心,大爆发以后,计算机智能超过人类怎么办?我们可以分为几种类别,计算智能,这个已经远远超越人类了,比人类强的不是一点半点。第二类是感知智能,我们能听的,能看到的,能感觉到的这样的一些东西,现在随着发展,云识别也好,图象识别也好,已经达到甚至是超越了人类的水平了,而且感知智并不是人类所独有的智能,显然不是。因为一个动物,也能够感知,一个动物也能够看,甚至是它的能力比人类要强很多。比如说狗鼻子可以识别到的东西比人类强很多,所以感知方面并不是人类最强的能力,人类最强的能力是在大脑里面去做认知的部分,也就是说我们整个人类对世界的一些认知,我们是用知识的形式给保存下来,并且用知识的形式去进行传承。我们每一个人类经过学习以后,我们并不需要对这个世界重新开始认知,我们是站前面人的肩膀上面再去探索。人工智能所要处理的重要的事情就是语言,知识和常识。
智能机器人介绍
现在再说说智能机器人,人工智能和智能机器人是密不可分的。作为一个完整的智能机器人,有三个端正要素,感觉、运动和思考,感觉要靠感知智能来支撑,运动是靠运动智能来支撑。运动智能非常复杂,比如说谷歌收购了一家公司,做了一个东西是你怎么踹也不倒,可以在雪地里面行走,可以在非常复杂的山里行走,说穿了这就是一个非常好的算法,一个可以适应各种复杂环境的算法,真正的做好非常的不容易。
美国有很多的机器人,比如说模拟了一个推门的动作,走楼梯的动作,非常笨重,比人类远远不如。即使那个状态,也是现在人工智能在研究的最厉害的技术了。在智能机器人运用人工智能,是特定场景中更稳定的、更可靠的运动方法。智能机器人在银行的展厅里面,可以通过一些室内定位和导航的算法,在这个里面进行巡航,能够指引人类去走。你要去模拟人类的腿去走路,显然是不合适的。我们看到很多的实际商用的机器人,下面是用轮子,因为稳定,成本低,不容易坏,可以解决当前的应用场景。最重要的就是思考能力,思考能力就是认知智能去驱动的。
BOTS——虚拟机器人
我们想象当中的机器人,一想就是跟人形比较像的机器人,像变形金刚,其实跟人还是差不太多的,还有这种,这个是2004年有一部电影里面的一个机器人,它就没有人形,但是不妨碍叫机器人,而且是一款很智能的机器人。我们假设一款机器人没有运动的部分,甚至没有外观,可以通过互联网,通过其他的方式进行交流,这就是一个虚拟的机器人,这也是一个智能机器人,现在大家都非常看重这种火爆的方式,甚至有一个专门的名词来去表述,叫Bots,小i做Bots已经做了很长时间了,最近智能虚拟机器人在国际上成为了一个新的热点,而且大家都普遍认为这个前景将非常巨大。在一个多月以前,facebook刚刚发布了一个品太,你可以通过这个平台创建机器人,这是一个虚拟机器人,可以在facebook的平台上进行交互,你可以问他问题,他可以回答问题,也可以主动提醒你,你可以跟他去交互。这个方式跟微信公众号非常类似,我们小i在微博中做了大量的客服机器人。
facebook也认为Bots在五年之内较颠覆人机交互方式,并且取代搜索,他们也认为这是基于App Store后一个非常重要平台。2015年的时候就有一个预测,当2020年智能机器人虚拟机会增加40%的移动交互量,也就是说那时候人机交互方式不再以按键为主了,主要还是自然的交互方式,他们认为这是后App的时代。
提到Bots有几种类型,第一类是聊天机器人,最早期的时候,最早出现的就是小i机器人,我们在2004年的时候就出现了这样的机器人,也可以跟它进行聊天,查询很多的问题。现在有一个微软的小冰,可以在网站里面跟它聊天,这个是从网络里面、论坛里面提炼出一些问题和答案,然后交给机器人,网民喜欢什么,机器人就回答什么。类似于小冰这样的产品在美国一上线第一天就被干掉了,因为回答了种族歧视的问题。在美国的政治情况看来比中国还严重。
我们在中国经常说的智能客服机器人,这是有很明显的商业价值。包括有我们小i所做的客服机器人,我们小i做了那么多的客服机器人,对外的名字为招商银行做的饺小招,还有沃妹,沃妹是给中国联通做的,还有一个叫丰小满,是给顺风做的,也是一个女性的形象,比较有意思。另外就是还有国外也有,比如说Nina,还有一个是Amelia,他们在美国做了大概不到10家客户,但是影响是非常大的,我们在中国做了接近上千家客户了。
个人助理,简单的说个人助理要回答的问题,就不是专家类的问题了,回答的是跟我们平常使用相关的问题,比如说SIRI、Cortana、GOOGle Now、渡秘、Viv。放在手机里面,可以说打电话给谁谁,可以查查天气,个人助理目前实现的能力离人类的期望还是蛮远的。
所以在这个图里面,也是针对于这几种不同的应用,也包括实体的机器人,在这个图里面是有不同的商业发展的现在的阶段。这个图里面技术发展到这样的地方是属于顶峰,之前是技术的发展期,到这儿是产业的平台期,在这个地方是属于产业大规模发展之前的沉寂期。一年的时间会有一些变化,比如说虚拟客户助手,所在的产业就是产业化的前期,在中国也是这样的情况,其实已经有很多人在使用这套系统了。
实体机器人已经开始有不少的应用了,技术也在不断的发展,市场上还没有真正的打开。在智能个人助理这一块,还是处于技术发展的非常早期阶段,离人们的期望还是有很大的距离,但是很多人还是在做这样的工作。
对于我们小i来说,我们小i最早出现的时候是MSN上,以聊天机器人的形式出现的,是在2003年12月份的时候就做了这款聊天机器人,后来又跑到QQ上,短信上,还有很多其他的商业平台上。我们拿了不少的投资,当时还做了不少的广告,甚至是在上海的地铁里面做了大幅的广告,宣传在MSN上添加小i机器人的情况,可以查询天气、股票、地图的服务。我们也聚集了很多的用户,但是惯用用户里面赚不到钱,所以我们后来开始转型了,后来成功的转移到智能客服机器人的方向,为企业客户服务。
左边这幅图是招商银行在微信上的客服机器人,你可以去问他一些问题,可以跟它聊天,更重要的是可以查询你的余额和帐单,还有可以进行咨询的工作。这样极大的减轻了传统的电话客服的压力。
对于招行来说,不仅仅有微信上的客服机器人,这套系统还跑在什么地方呢?还跑在网站上、QQ上、微博上、手机App上,还给他的人工客服做辅助的作用。也就是说我们用了这套系统武装他们的客服人员,让他们的效率更强。还用到他们的门店中,门店用实体网店的方式来实现的。
为客户也创造了非常巨大的经济价值,比如说中国建设银行,每年节省大概6000个坐席,一个坐席保守估计大概需要花10块钱的人民币,所以经济效益是非常明显的。交通银行更为直接一点,可以节省8700万的成本,招商银行里面也专门的提到了,是小i提供的智能交互能力,使客服发生了质的变化。
当然也不仅仅是这些银行了,在电信运营商、更多的金融的行业里面,我们做了大量的工作,现在目前已经有上千家的客户,还包括政府、电商、航空、汽车、3C、交通领域。说穿了,只要有对外服务的需要,就有用机器人替代传播性的需求。
硬件智能机器人
除了刚才说的虚拟机器人以外,我们还有硬件智能机器人,为什么要推出呢?其实很简单。我具备这个领域的认知能力,具备这种人机交互能力,我想把这种线上的服务往线下去迁移,迁移到线下以后,必须要有一个载体,这个载体就用机器人的形式载入进去。右边的这个机器人就是在银行里面使用,在大厅里面做导购、迎宾。这款机器人有1.6米高,长的还蛮漂亮的,主要是做服务。在清明节的时候,我们上线了一款机器人,清明节的时候上线的,大家猜猜这家公司是谁?这家公司是一家墓园,放在墓园里面做迎宾,当时给我们提出了要求,说你不能是红色的,得是黑色的,你不要是一个笑脸,你得给我一个稍微悲伤一点的脸,所以说应用的范围非常多。
中间的这款机器人是60厘米高的机器人,非常有趣,可以用在很多展会里面跳舞、讲故事,吸引人气。所以不同的机器人有不同的应用场景。
左边的这款机器人,看似跟右边的这款机器人有点类似,但是简单很多,便宜不少,中间手里还托一个盘子,是在超市里面做导购用的,盘子里面放的是牛奶。以前是两小女孩在做导购,现在是一个小女孩加一个机器人。就是在特定的场景中逐步的取代人的工作,类似的机器人还可以放在餐厅里面去送餐。
现在我们看一个视频。这款机器人脸上大概有38个马达,大概是200多种表情,把小i的技术也整合进去了这家公司也是我们投资的一家公司,其实我们很明确,我们不可能去做大量的机器人的实体部分,所以把认知智能部分和这些硬件做整合,我们用资金的方式来做,这是一家香港的公司所生产的。脸特别复杂,制造业特别难,价格也贵,我们把脸上的表情做的少一点,向一些玩具的方向去发展。
我们现在服务的全球用户超过了五亿,每年有数百亿次的交互,我们有非常大量的商业积累,目前国内行业地位在智能客服机器人这一块是遥遥领先,占了90%以上的市场份额,在标准制订方面,参与了多项国际和国家的标准的制订,现在我们刚刚提交了一个国际标准,叫情感交付的国际标准。刚才看到的机器人,就是索非亚机器人,可以做若干种情感的表达,另外还做了一个工作,就是做情感的识别,看一个人的表情,看一个人的说话,判断出你的情绪,有七种或者是九种不同的情绪。我们也是人工智能产业联盟发起人单位,去年在新三板挂牌。
在国际方面,全球最大的IT调研公司Gartner眼里,我们小i是一个架构提供商,这是他们十月份的会议上所定义的结果。在小i旁边的这是IBM的产品,他们的一个副总裁是资深研究员,他们认为我们小i的能力在全球至少可以排进前三位。
当然也不只是他们说的,今年7月14日,我会被邀请在全球最大的人工智能大会上做演讲,第25届世界人工智能大会,这是全球最顶级的人工智能专业会议,邀请我们小i去做演讲。左边这一排是赞助商,我们是金牌赞助商,谷歌是银牌赞助商,看起来我们似乎比谷歌还要有钱。
从核心的技术的架构上来讲,我们的核心能力就是语义理解和智能交互,这是我们的核心层。这是由知识、语义库和应用层支撑的。更重要的是什么呢?并不是说我们积累的这些数据就停滞不前了,我们还是不断的学习,需要非常重要的学习体系,不断的去学习这样的一些知识和语义。在前端,我们把人机交互的方式,语音交互、图象识别、各种各样的能力以及全渠道的综合能力集中到一起,形成一个完整的人机交互的能力,在前端我们以不同产品的形式,把这些能力输出出去,包括企业级产品,有云服务平台,还有我们做的硬件的操作系统,和这些模块,能够把我们核心能力输出出去,建立我们非常好用的平台生态。
具体来说,我们的中文智能对话引擎发展到了第十代,是全球最领先的中文对话引擎,由知识进行驱动,结合上下文的个性化,给出一个回答的生成。这一切,通通是由知识来去驱动的。
在深度学习方面,我们也在智能对话引擎里面,我们用深度学习的模型,做了一个深度学习结合背景知识的模型,做了一个我们定义为副引擎,用传统的方式,以前的机器学习的方式做的引擎,我们称之为主引擎。这个引擎是一个副引擎,是用在一些特定的情况之下,当然主引擎不能很好的解决问题的时候,副引擎来解决。背景训练,在生产环境层去训练,这个应该是全球最先进的,在问答方面的能力是全球最先进的。
引擎是一方面,引擎有好一点的,差一点的,影响没有到非常致命的地步。最重要的就是你知识的积累,知识跟语音的积累,这是非常重要的。所以我们小i独创了知识模型,也是集合了很多技术,我们把这些知识分为概念,有本体、知识图谱和专家系统,机器学习训练出来的模型,最后呈现出来的都是自然的交互的方式。在语义层面,不同的行业都积累了大量的词,在语义和抽象语音中,还有训练出来的一些东西。
具体来说,在词库方面,我们现在在通用语义已经有20万以上的中文词库,5万以上的英文词库,在聊天里面,有20万以上的通用聊天,有100+的第三方服务,有200+的抽象语义,这个就是我们自己专业的技术。另外我们覆盖有10多个行业,有100多个语义库,这都是驱动我们认知能力的,在知识层面的技能。
我们也跟复旦合作,做了一个中文知识图谱,这个是在通用语义中的一些能力,我们做的目的是训练所谓的常识或者是背景的知识。
这是我们学习体系,我们的学习体系是一个半监督的人机协作的学习体系,里面有三种角色,分别是机器、运营人员和专家。这三种角色在综合的使用。所有的数据来源是来自于不同的数据,有非结构化的、半结构化和简单结构化的数据,其实就是一个机器人,我在运营过程中,用户真实的交互是最重要的数据来源。
这是机器学习当中的一些具体的工作,这是用无监督学习做的一些序列的工作,这个是机器所发掘的新的表达的方式,由人去做审核的。在做情感分析方面,我们也是基于深度学习的方式,基于CNN的情感网络做了情感分析。前面提到过,我们用传统方法做的时候,准确率可以达到91.7%,用了神经网络以后,准确度可以达到93.8%,提升了两个百分点,计算量提升了100倍。
在全渠道、多模态人机交互接入方面,无论是App、微信、微博、QQ等方式都可以介入,还可以通过语义理解、语音识别和图象识别的方式,提供多模态的过程。今年年初,我们和NUANce达成了一个非常深度的合作,在整个大中华区,大陆、提出、香港,之前所有的家族企业业务由小i来接手,也跟他们总部建立了一个非常深度的合作关系。我们主要的目的是需要想把语音识别的能力以及Nuance的能力引入到中国。
我们在博览会上发布了我们最强大的平台2.0,我们就是把最新的技术和新的产品整合到这个平台里面来,帮助我们完成四个下一步要去做的战略。第一是行业深化,第二是从大到小,第三个是从软到硬,第四个是从内到外。
在行业深化方面,早期做了很多家客服机器人,现在新的架构完全是以知识为核心,包括对知识的管理和知识的学习部分,其次是有大量的搜索引擎,包括语音和语义,基于这些音型,我们有大量的智能应用会产生。这样的方式在大型的客户里面,不仅提供客户服务,还有更多更丰富的服务,智能中端以及企业内部的多种应用形式。具体来说,包括我们刚刚发布的智能学习平台,可以帮助企业通过机器人交互的历史和记录,不断的优化这套系统。
智能知识库也是发布了新的版本,为企业提供了强大的知识引擎,这个知识引擎不仅仅提供给客服机器人,还可以提供多种形式,为客服人员和企业内部提供各种的能力。
在广东移动和好多家的企业里面都做了非常深度的应用,在广东移动里面,项目也是获得了很好的评价。在智能辅助方面,基于刚才的知识库系统,我们把之前的技术用在智能辅助上面,让客服人员和客服机器人在去相互协作使用,让机器人在客户服务过程中不断的学习。其实这是一个很好的人机协作的过程。
刚才说了行业深化非常重大的战略方向,我们也希望说那么多的种子,每个种子都可以开花结果,可以获得更多的收入来源。从今年市场发展的情况来看,已经看到了很多的案例。
我们服务了很多的大客户,我们希望核心能力可以提供给更多的中小企业,他们可以用云服务的方式,可以用租赁的方式,按需使用,从比较小的需求出发,所以推出了我们小i的iBot Cloud的多种形态,有三种形式。公众云是谁都可以使用,基本上是免费的,如果里面的内容需要定制,可能是需要付一点费用。公众云新的版本是非常的强大,预制了多种服务,可以通过开关的方式选择这些服务。对于行业云来说,比如说金融行业,跟银河在一起做一些面向小银行的系统,这个产品是我们刚刚发布的产品,是iBot 10,这是一个离线的版本,对很多用户来说有安全的考虑,公有云已经够用了,希望这个是部署在服务器上的,这样我自己可以掌控。所以说我们也推出了离线版本,就是标准版本,安装以后使用起来非常简单。
从软到硬,从软件到硬件,把人机交互和认知的能力赋予给更多的硬件,我们的做法是形成了一个操作系统,这个操作系统赋予硬件,提升的不仅仅是智能交互能力,这个是一个云+端的模式,核心是像语义理解、语音识别、人脸识别的这些能力,是来自于云端的,本地也结合了一些人体感应、定位导航、运动控制、情绪表达等能力,还有更重要的是可以跨操作系统和跨平台的。所以是一个可以驱动很多的硬件的操作系统,而且能力是可以在云端定制的。
我们驱动了很多的硬件设备,当然这是非常重要的,也是我们着力拓展的企业应用当中的服务机器人。我们有两类在市场上着力推广的机器人,还有很多在研发中的机器人。这款叫艾蒙,一般是用在展厅里面,做推介、引导、迎宾用的,我们有几种不同的系统。这个机器人不是我们生产的,主要是用在一些展会,用在一些娱乐方面。
在展会、政府、银行都可以使用到机器人。贵阳的大数据博览会上,李克强总理在跟我们机器人打招呼,这位是李克强总理。
我们还基于iBot OS提供了一些开发套件,比如说芯片等,一个简单小玩具,小玩偶是不具备计算能力的,这时候要结合iBot OS,这个在云端是可以定制的。
在智能电视、智能家电和家居里面都有很多的应用,智能眼镜是一个很酷的东西,右边这是一个音箱,看起来很酷。我们还跟AR、VR做整合,这个是一个全新的投影。这个是把模块整合到一个礼品玩具当中,这是我们小i的玩偶,这是我们玩偶的设计图,把电池放到什么地方去,核心的模块还有百麦克风放到什么地方去,它是具有说话的能力。
最后一个重要的策略就是国际化,我们现在在做国际化的很多的工作,繁体中文还有英文,我们都已经全面的去支持了,现在在台湾地区、香港、国外的用户,包括国内的用户要去对外服务,我们都已经提供了多语言版本。
我们做了很多的行业应用,有硬件的,有软件的,有云上的服务,不断的积累大量的数据,这些数据有一个简单的呈现,在我们展厅里面有大量的呈现的数据。这些数据其实都是从规模化的应用当中去产生的,首先是通过规模化应用,产生了大量的数据,通过学习体系,新城了知识和语义,我们再去促进整个产能的应用。
小i做的事情非常单一,或者是说我们做的事情非常专注,我们只做一件事情,我们把所有的资源做一件事。人工智能就是未来,未来就是人工智能的,人工智能是覆盖了很多的地方,我们是人工智能一家从业的单位,我们定做人工智能所有的事情,我们就把这一块事情做,就把我们智能机器人的问答能力做好。问答的核心就是在不同的领域当中知识的不断的积累,我们会朝着这条路坚定的走下去。我今天的分享就到这儿,谢谢大家!