微软姜大昕展望大规模语言技术：跨语言与多模态有望短期突破

2021-08-24 13:26:31

来源：中国网财经

从技术视角看，自然语言处理是比视觉、语音两大人工智能热门投资板块更为关键的更高层级智能，而大规模语言模型是这一领域取得突破的关键。微软全球合伙人、微软亚洲互联网工程院副院长、首席科学家姜大昕博士日前参加华泰证券“行知”新经济云峰会数字科技专场，分享了大规模语言技术的落地实践与发展趋势。

自然语言处理和语音、视觉同为当下人工智能热点领域。人类智能从下到上包括计算智能、感知智能、认知智能和创造智能。视觉和语音属于感知智能，而自然语言处理属于更高层级的认知智能，被誉为人工智能皇冠上的明珠。要构建真正的人工智能，自然语言处理是绕不过去的一步。随着大数据、大算力和深度学习的浪潮，自然语言处理也进入了一个快速发展的时期。

大规模语言模型突破：预训练+微调新范式

自然语言处理最近的重大突破是在2018年底，BERT模型横空出世，在经典的阅读理解测试集上达到了超越了人类准确率的水平。BERT集成了此前深度学习在自然语言处理领域已经取得的成果，显得特别强大，主要有以下特点。

特征学习。BERT作为深度神经网络可以自动从数据中抽取有效的特征表示，避免了人工设计特征这样费时费力的步骤。

自监督学习。BERT采用了自监督的学习方式，能够自己构造训练数据，利用网页数据作为训练集，从而可以训练上亿参数大模型。

开创“预训练+微调”的新范式。这一点尤其重要，宣告了大规模预训练模型时代的到来。过去自然语言处理需要根据任务选择相应模型，导致每个任务都只能从零开始训练模型，数据无法共享、模型无法混用，小数据训练小模型限制了自然语言的应用。而BERT模型把训练拆成两步，第一步是预训练，用自监督方法从大量文本中学习语言的特征表示，得到大规模预训练语言模型，帮助模型执行不同任务。第二步是模型微调，针对特定任务，只要用比较少的数据就能训练出特定下游任务的模型，在特定任务上达到比较好的效果。打个比方，预训练模型就像本科生学习各种基础课，而微调是研究生学习专业课，基础知识掌握比较牢固，学习专业课就比较容易，这就是BERT的主要思想。

沿着BERT的思路，大家把模型做得越来越大、能力越来越强。比如2020年3月，微软推出图灵模型，参数量是上一代的10倍，达到了170亿参数；仅仅三个月后，又推出了GBT3模型，再翻了10倍，达到1750亿参数，轰动一时。国内科技公司也预训练了一批大模型，比如对标GBT3的华为盘古和腾讯盘古，分别达到了1000亿和2000亿参数，最近智源悟道发布的模型达到了1.75万亿参数。预训练技术和随之产生的大规模模型正在快速推动自然语言处理的发展，使大量落地应用成为了可能。

助力数字化转型：聚焦平台层和工具层

四年前，我们开始和企业合作，探索如何将大规模语言模型落地应用，推动数字化转型。在接触了许多企业、也包括政府部门之后，发现数字化转型有一些共同的痛点。企业想要拥抱AI通常有两个选择，采购AI解决方案或者自建AI能力，但二者都有问题。如果采购会面临技术黑盒子、可拓展性差、无法与自建系统深度集成等问题；但完全自建又有技术门槛高、人力成本昂贵等问题。

经过一段时间讨论，我们找到了一条中间路线，推出了包含数据层、平台层、工具层和业务层的Carina平台。这四层中，微软主要负责平台层和工具层，把我们所擅长的技术集成到这两层，而企业则可以根据具体业务场景开发应用，这样企业可以充分利用我们的技术，我们也不需要特别深入理解企业具体业务。数据层和业务层，因为企业之间的差异较大，很难有统一解决方案，所以合作方式多种多样。

平台层的目标是围绕机器学习模型的生命周期，为企业提供模型开发、部署的环境和工具。以Carina为例，包含了训练、部署、调度和共享四大平台，在这个大框架下，我们再根据企业操作人员痛点设计具体功能和模块。经过不断开发验证和改进，这个平台已经非常稳定、好用，可以支持上千人同时协同开发。比如Carina已经在华泰稳定运行了三年多，给信息技术部和相关业务部门带来了很多帮助。

工具层的目标是提供各种自然语言处理模型、调用接口和定制化工具，企业开发各种场景具体应用时可以使用。这一层要解决三个挑战：自然语言处理任务繁多、算法各异，标注数据昂贵且质量越高越贵，通用模型往往在细分领域表现不佳。为此，我们制定了“四步走”策略：

第一步，预训练大规模语言模型，我们广泛采用了包括微软图灵模型在内的业界流行的预训练模型，这为后面所有工作打下了很好的基础。

第二步，在通用模型基础上为不同任务微调，我们使用了各类标注数据，有了这些数据，平台上每一个任务的表现都经过经验，可以满足工业级应用需求。

第三步，针对不同领域进一步微调，在这一步，平台提供工具让使用者可以便捷地加入知识和数据，让模型适应用户的具体场景。

第四步，把大模型压缩变成小模型部署上线，最常使用的方法是知识老师，让它产生很多训练数据，再训练一个小的学生模型，通常这个小模型只有几十兆，在CPU上也可以跑起来。

展望未来突破点：跨语言模型和多模态

大规模语言模型技术的未来会是什么样呢？我的观点是，常识和推理任重道远，还需要很长时间才能解决，跨语言和多模态有望在未来几年取得突破。

跨语言模型正快速发展，不仅仅是机器翻译，还包括支持上百种语言的自然语言处理任务的模型。除了学术界的研究非常活跃，工业界的跨语言模型也到了成熟落地时期，比如微软的所有产品都要求支持200多个地区的100多种语言。

目前，语料丰富的大语种已经实现了工业级应用，但是许多小语种，由于语料很少、尤其是双语拼音数据的缺乏，效果还不理想，有待研究的重点是如何把大语种的丰富语料知识应用到小语种上。另外，即使是大语种，有了落地的成熟工业级应用，但我认为也就是八、九十分的水平，最后的十分、二十分非常难拿。比如歧义，“我的钢笔没有水了”，机器可能不理解这是指“墨水”,从而翻译成“水”；再比如缺少对应翻译，“一带一路”、“到基层去”这类内容就很难翻译，只能意译。这也是有待解决的问题。

多模态是指让计算机拥有处理语音、文本、图像、视频、知识等不同模态信息的能力。过去，语音、视觉、自然语言处理几大人工智能领域平行发展，彼此很少有交流，模型之间可以互相交流，但一个模型很难同时接受多个模态的输入。很多学者相信，人类不论接收外界信息还是表达意图，都会综合运用大脑中多个感知和认知模块，既然人类智能是多模态的，我们也应该让机器把不同模态的信息加以融合，所以多模态学习成为当前的热点方向之一。多模态的工业落地比如搜索引擎，现在可以用文本搜索到图片、视频，但如果要精确定位到想要的某一段视频，就需要文字和视频信息的紧密融合。另外，多模态研究如果能够突破，增强现实、虚拟现实、虚拟人类等方向也会得到飞跃式发展。

我一直认为要让机器理解常识，就需要机器把多种模态联系起来。我们人类获得常识的途径往往不是单纯通过文本，而是通过自身在现实世界中的体验。如果让机器也获得“自身体验”比较困难的话，就退一步，让机器能够“观察”到现实世界的体验是多模态的，这对机器理解常识也会有所帮助，从这个意义上说，多模态对推动整个通用人工智能的发展意义非常重大。

自然语言处理处于一个美好的时代，虽然还有很多问题没有解决，但是已经有很多成功的商业应用。我相信随着技术的进一步发展，一定能够更好助力数字化转型。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。