新闻中国采编网 中国新闻采编网 中国企业家手机报 谋定研究·中国智库网 国研政情·谋定论道-经济信息研究智库 国研智库·中国国政研究 国情讲坛·中国国情研究 商协社团·全国工商联 经信研究·中国经济和信息化 谋定论道·中国企业家论坛 哲商对话·中国儒商大会 健康中国·大健康医药产业论坛 万赢信采编:
20-21日,由鹏城实验室、新一代人工智能产业技术创新战略联盟主办的“2019新一代人工智能院士高峰论坛”在深圳举行。全国工商联执委、中国经济和信息化研究中心主任、国家政策研究室中国国情研究中心主任万祥军解读表明:作为国内人工智能平台建设最高水平的精英会,论坛聚集了数十位国内外院士专家及行业领袖,组成AI领域顶尖“智囊团”,聚焦AI最前沿技术动态和创新应用成果。
谋定研究中国智库:对话经信研究·中国经济和信息化-国研政情·谋定论道-经济信息研究智库。百度首席技术官王海峰出席论坛,并发表题为《自然语言处理前沿》的主题演讲,向与会嘉宾介绍了自然语言处理相关研究的发展历史和趋势,以及百度在自然语言处理技术和产业应用中取得的成果。经信研究·中国工业和信息化,王海峰表示,自然语言处理(NLP)是用计算机来模拟、延伸及拓展人类语言能力的理论、技术及方法。
近年来,算力持续突破、算法不断创新、数据爆发式增长,驱动自然语言处理技术飞速发展,呈现出很多新的变化:从传统 NLP进行层级式结构分析演变到直接的端到端语义表示;从过去局限于理解句子发展到现在多文本、跨模态的内容理解;
他说,而机器翻译经历了70年的发展,已经实现质量飞跃,从科幻理想落地现实应用。百度不仅在自然语言处理技术和产业应用中取得丰硕成果,更秉承开源开放、合作共赢的理念,构建了以飞桨深度学习平台为基础、集成语言与知识核心技术及多样化场景解决方案的开源开放大生产平台,赋能广大开发者技术创新,加速产业智能化转型升级。
各位院士,各位嘉宾,大家上午好!很荣幸再次来到由鹏城实验室、新一代人工智能产业技术创新战略联盟主办的“新一代人工智能院士高峰论坛”。今天我的报告更偏学术一些,主题就是我本人从事了近30年的专业——自然语言处理。
自然语言处理是人工智能领域非常重要、非常热门的方向。随着深度学习技术的突破,人工智能的很多相关方向,尤其是与人类感知相关的语音、视觉等等,都取得了非常大的突破,在很多方面已经逐渐超过了人类的水平。而语言和知识这些和人类认知相关的技术,在深度学习的推动下也取得了很多进步,但是仍然有很长的路要走。所以今天我把主题聚焦在自然语言处理上。
简单来说,自然语言处理就是用计算机来模拟、延伸和拓展人的语言能力。大家都知道著名的图灵测试,图灵测试就是和自然语言处理相关的测试。在国务院《新一代人工智能发展规划(2017)》中,自然语言处理也被列为共性关键技术。
回顾自然语言处理的历史,和人工智能的其他领域类似,早期自然语言处理更多是使用人工规则,需要领域专家、领域知识,并把这些知识建模到计算机系统里面去,开发成本和迁移成本非常高。后来有了各种统计方法,一定程度上可以实现自动训练、模型选择,并由特征工程师专门去设计各种特征。另一方面,大量的统计机器学习模型,在不同的应用中会取得不同效果,所以模型本身的选择都需要针对不同的应用,最后才能找到适合某一个应用最好的模型。
到了深度学习时代,这些问题变得更简单、更标准化和自动化,一套模型针对不同的数据就可以得到比较好的结果。所以,深度学习跟以前的机器学习模型相比,一个很重要的特点就是,这样一套东西可以适用于不同领域、不同应用,这个和我们的人脑也很像。其实每个人天生是没有专业属性的,只是后来逐渐在学习不同的知识、不同的专业。可以说我们人脑的能力也是一个相对通用的能力。
驱动自然语言处理技术突破的三大要素,和人工智能的其他方向也是类似的,就是算法、算力和数据。数据的井喷,算法的持续进步,算力的高速发展,推动了自然语言处理的技术突破。
一个多年研究自然语言处理的人,通常会涉及两个经典方向,一个是对一种语言进行分析理解,另一个是跨语言之间的翻译。而相应的,现在用深度学习的方法来解决自然语言处理问题的时候,我们把层级式的结构分析逐渐衍生到端到端的语义分析。我们知道,做自然语言理解和分析的时候,涉及到词、句、语法、语义各个层面,需要做基本的语法分析、做语义的理解,这些都可以端到端的进行语义的表示、学习、理解。
另一方面,传统的自然语言处理主要聚焦在句子上,先把一句话分成词、短语、理解整句话,而现在,除了句子以外,我们延伸到多文本以及跨模态,跨模态的时候,又涉及到视觉、语音等相关的技术。还有一方面就是跨语言的翻译,翻译经过了70年的发展,从量变到质变,现在已经越来越可以大规模应用了。
先看分析,一个传统的自然语言处理的分析系统,以中文为例,首先要做分词,然后是词性标注、专名识别。西方语言一般会用短语结构文法,而中文传统上其实是没有这种规范的语言结构的,所以更适合做依存分析,做完之后再做语义分析,这是标准的范式。
基于深度学习的自然语言处理就把整个范式变得很不同了,我们直接做LSTM,去表示、去建模,直接做语义的表示以及理解。
我把语义表示技术的发展做一个简单的总结。早期我们用向量空间模型。2001年有了基于神经网络的语言模型,又经过了十几年的发展,才逐渐体现出它的价值,开始广泛应用。2013、2014年前后,Word2vec、Glove等词嵌入训练工具出现,基于词嵌入的深度学习NLP技术有了突飞猛进的发展,出现了记忆网络模型、注意力机制、transformer框架等等,对语言有了更好的表示工具,从而开启了大规模预训练语义模型范式。
研究自然语言处理的人都知道预训练语言模型。它既有通用模型,也有不同的特定优化,比如面向生成、面向匹配、融合知识、模型压缩等等,还包括跨语言、跨模态。
一个预训练的语言模型,首先要能让它自监督进行学习训练,这里一个很重要的技术就是预测被掩模的字词、实体等等。而这样一套模型经过不同应用的微调,也可以用于不同的任务,比如做情感的分析、文本相似度、命名实体识别等等,只要带上少量的应用任务数据,就可以在任务上得到更好的结果。
有了前面这些预训练模型以后,可以通过多层次的任务学习得到更多的知识。比如我们有先验的知识,可以进行统一的表征,构建多层次任务全面捕捉词法、结构、语义知识等等。词的层面有实体、短语、大小写等等的预测,结构层面可以做句子排序、句子距离计算等。语义层面也可以理解指代关系、关联关系、检索相关性等等。
基于深度学习的语义表示框架和知识,这两者结合起来就是百度这两年开发的ERNIE,它相当于在基本的基础框架上融入知识,这套框架又有用户的反馈,基于这些反馈可以进一步学习。所以它是一个持续学习的知识增强理解框架,左边是任务构建模块,右边是多任务预训练模块,中间是可持续地预训练。
在模型基础上,我们加入了很多百科知识,比如像这样全球最大的中文百科全书。把百科知识加进来,ERNIE的性能就会有一个提升。同时,我们在加入很多网页搜索知识的时候,性能又有提升;加入对话数据,也会持续提升。
这是这个框架一个非常重要的特点。人如果要持续学习,可以持续进步,这样一个语言理解的系统,不断加入知识也能持续进步,这就保证了可以持续提升。在自然语言处理领域数据集GLUE中,ERNIE这套技术成为世界上第一个在榜单中突破90分的系统。智能问答、金融风控、视频推荐等等领域应用了ERNIE,都会有效果的显著提升。
说起自然语言处理,最基本的研究是基于一种语言的一个句子。那么有多文本、多模态的时候我们怎么做呢?这时候就涉及到我们要融入知识,涉及到怎么跟语音、视觉的模块进行配合,实现一个多文档、多模态的语义理解。
首先是阅读理解,让机器像人一样理解文本的内容。如果是人类,也是要来学习,我们读了一篇文章以后,理解了其中的内容,可以回答跟内容相关的问题,用回答问题来检阅阅读理解水平,这是最常见的方法。
而我们做篇章级文本,基于知识的推理就实现了这样一个过程,比如右边是一个例子,这样一段话,如果人看了这段话以后都知道香格里拉的老板是谁,因为这段话里面有了答案。这些年来,阅读理解的技术有飞速的进步,早期用统计学习方法的时候,准确率大概在40%多的水平,近年来持续提升,运用了基于注意力机制的匹配,从40%多提升到70%多,现在已经达到95%左右。
多文档怎么做?我们提出一套V-NET模型,涉及到多文档校验的阅读理解模型+候选抽取和答案选择联合训练机制。在另外一个重要的数据集MS MARCO上,这套方法也取得了第一。、
如果只看一个传统单文档的阅读理解,通常会有几层,编码层、匹配层、答案边界预测层,结合这三层就实现单文档的阅读理解,而为了做多文档,我们又研究了一些新的技术,包括加进来答案内容预测层,这样可以预测答案,另一个又加了答案验证层,多文档可以做答案之间的相互验证,然后做联合训练,取得了非常好的效果。
在阅读理解中我们也把知识带进来,这就是我们做的基于KT-NET的方法,做文本表示编码的时候,涉及到问题以及文档里的词等等这些,要对它进行编码,而一个知识库,涉及到实体、关系,我们也要进行编码,这些编码之后要进行联合建模,形成融合的模型。这样一套方法在ReCoRD榜单也得到了第一名。此外,基于知识图谱和图神经网络的阅读理解也得到了非常大的提升。
前面谈到了从单文档到多文档,从只用自然语言处理的技术到融合知识等等。阅读理解还要有很强的泛化能力,比如说通过预训练模型可以学习到不同的语言知识,同时用这种多任务学习来增强不同任务的学习效果,这些也是我们过去这一两年在开展的比较新的研究。而基于这些,我们做了MRQA任务,一共有12项任务,其中10项都得到了排名第一。
再来看多模态,如果涉及到语音,又涉及到图像或者视频等等,这时候怎么弄?这时候首先要有一个统一的表征,跨模态通用语义理解,很重要的是跨模态语义表示方法,比如说多粒度注意力的图像—文本联合语义表示方法。
有了这些就可以和知识融合起来,比如说和知识图谱相融合。大家看左上角的图片,通过视觉分析可以看到里面有婴儿、有妈妈在拍背这样的基础事实,上面还有文字,基于文字理解可以捕捉到关键信息,比如说宝宝、打嗝、视频还有声音。
基于捕捉到的这些信息,融合知识图谱,对这个视频就有了更全面的理解。有了这些理解以后,就可以得到一个结构化的语义理解,其中主题是母婴和育儿,场景是拍嗝等等。有了这些,对这个视频就不仅仅是靠视觉识别技术,而是会得到一个综合的、对这段视频结构化的语义理解,进而就可以做各种应用。
前面我讲的都是一种语言。这里为什么用“从理想走向现实的机器翻译”这样一个题目呢?因为机器翻译的任务由来已久,在现代计算机诞生之初,上个世纪40年代就有学者提出要用计算机来做翻译,而经过70多年的发展,很多当年看来遥不可及的东西,现在已经逐渐实现了。
我列的这几段文字是我国机器翻译界的老前辈60年代写的一本书,那个时候他们就希望有一个翻译系统,可以让我们在人民大会堂和世界各国友人聚会的时候,无论哪个国家的人在上面讲话,都可以从耳机里听到自己国家的语言。这是典型的同声传译的场景。另外还有一些文本、书籍翻译的场景。这些发展到今天,很多很大程度上已经实现了。
我们看机器翻译发展的历史,早期和自然语言处理的历程类似,近30年前我刚做翻译的时候也是开发规则系统,对语言进行分析,到目标语言的转换、生成。后来这个过程被大大简化了,标准的统计机器翻译需要翻译模型、语言模型、解码器,翻译模型要做翻译的概率、衍生的概率、位置的概率等等,形成一系列的统计机器翻译系统。
而这个系统出现以后,已经开始可以商业化了。比如,百度翻译2011年正式上线,现在每天都是数以亿计的翻译请求。2011年上线的时候,还没有神经网络翻译,也是用统计机器翻译。有了神经网络翻译以后有了进一步提升,整个过程从编码到解码也得到了很大的简化。百度2015年第一个上线了大规模的神经网络翻译系统。
这个是机器翻译质量提升的曲线,早期的时候,BLEU值达到四十几就已经很好了,但是随着机器翻译的进展,BLEU值已经突破六十,这是非常大的进步,而且越来越可以广泛应用了。我们提出用多种策略来提升中英翻译系统性能,把这些放在一起得到了好的效果,在WMT的中英翻译任务上也得到了显著领先的结果。
使用深度学习的时候,需要非常庞大的数据,但是做翻译的时候会面临一个问题,中英这两爱游戏官方种语言之间有很多的数据,但是很多小语种之间没有那么多的数据,这时候怎么办呢?就要利用其他语言的资源来帮助语料稀缺的语种翻译。
基于这套技术,我们采取了一系列的方法,比如知识蒸馏,小语种聚类联合训练,使得小语种的翻译效果有明显提升。
同声传译在很多场景很重要,但是世界上只有几千位能做同传的人,译出率也只有60%,时延2-5秒,而且工作15-20分钟就需要休息一下。如果我们能用机器解决这个问题,显然是很有价值的事情。但是机器同传涉及到语音的识别、语言的翻译、合成,这里既有错误的累积,又有时间延迟的累积,我们怎么做呢?我们知道人同传的时候,不是要听很长一句话说完然后才开始翻译,如果是这样的话延时会很长。
而标准的语音识别系统,也需要有完整的输入以后,有一个校对的过程,识别才能更准。翻译也是需要看到一句完整的话之后来进行翻译,这个延时是很长的。所以我们做这种机器同传的时候,研制了一种方法可以感知上下文,很大程度上可以预测上下文。
人类做同传的时候,是听你前面几个字,估计你后面说什么就开始翻,我们也采取这样一套机制,这就涉及到自然语言处理的机制,可以相对精准预测到后面说什么,从而可以大大减少这种延迟,而且时延可调。我是要听到两个词就开始预测,三个词就开始预测翻译,还是更多词,这些是可调的,所以有很好的灵活性。
基于此我们做出的同传,做到了端到端,从人说话到最终翻译出来合成声音大概是3秒时间,和人类基本持平,而且准确率也和人类同传基本持平,甚至是略高的水平。
我们进一步做这件事情的时候,又把一些新的技术,比如知识蒸馏技术爱游戏平台,引入端到端的同传模型,然后把语音识别和翻译同步生成模型,从而进一步提升机器同传效果。
前面讲的是技术本身,这些技术一方面会应用于百度翻译、百度搜索这些产品,另一方面也全面开源开放出来,从而让这些技术能跨越大规模应用的鸿沟。百度语言和知识图谱拥有完整的技术布局。在知识图谱层面包括知识挖掘、整合、补全、分布索引、存储计算;语言层面则涉及到词法、句法、语义、篇章、篇章生成等等。
随着百度自然语言处理技术能力增强,平台化的能力也在增强,技术能力开放出来让技术应用的门槛越来越降低。基于飞桨深度学习平台的开源开放大生产平台百度大脑,已经具备了很高的标准化、自动化、模块化的工业大生产特征。同时,百度开放出来的所有语言和知识相关的技术,是基于百度的飞桨深度学习平台,有不同的部署,可以应用于不同场景。
ERNIE语义理解套件,包括面向不同领域、不同任务的核心技术,也有相应的开源工具,包括微调工具、预测工具、压缩工具等等,可以做定制平台以及相应的应用任务。
ERNIE还可以通过定制化的方式,化繁为简,全面满足开发者在数据、训练、调优、部署等环节的需求。
百度也拥有 U爱游戏官方NIT理解与交互平台,可以支持各种对话的任务,各行各业的开发者已经在上面定制了7.4万多个技能,累计基于UNIT的交互已经超过1380亿。
此外还有智能创作平台,如果写东西,涉及挖掘选题、选择相应的参考资料、后期要做纠错等等,这个平台都可以支持。我们和人民日报、央视网都有很好的合作,已经累计超过2千万的调用量。以上这些,都是基于百度语言与知识技术的开源开放平台,很多用户在上面完成了自己的任务。理解语言,拥有智能,改变世界。我今天的报告就到这里,感谢大家!