4月27日,由东北大学自然语言处理实验室主办,小牛雅智、小牛翻译协办的小牛翻译直播(NiuTrans Talk)与大家见面了,本次做客直播间的嘉宾是来自东北大学自然语言处理实验室的李北博士,在本次直播中,李北博士为关注自然语言处理与大模型技术发展的朋友带来了《生成式大语言模型系列直播第一期 ——Transformer基础技术》。
最近,以ChatGPT为首的一众大语言模型受到了广泛关注,而这些语言模型的主流架构普遍基于Transformer架构。本次报告主要由李北博士对Transformer的相关基础技术展开介绍。首先,李北博士概述了当前大语言模型的现状,同时简要介绍了什么是语言模型。接下来李北博士主要针对Transformer模型的组成及基础技术进行讲解。在介绍了Transformer整体框架之后,李北博士对模型输入及位置编码的原理和作用进行了讲解。然后介绍了Transformer中的注意力机制和多头注意力机制的实现方法,探讨了注意力机制有效通用的原因。最后李北博士对残差网络和层标准化、前馈全连接网络等进行了详尽的讲解。在最后的提问环节,李北博士和网友们进行了热烈地探讨。网友们也提出了很多有趣的问题,包括Transformer的关键优势、fnn层的作用、Transformer在cv上的应用前景等等。
在报告后的Q&A环节,李北博士与包括B站、知乎、抖音、视频号、微博在内众多平台的网友就大模型相关技术提问进行了广泛讨论,进一步加强了对该类大语言模型的认知,以下是本环节的问题和解答:
Q1:FFn层的作用是什么:
A1:前馈神经网络(FFN)在Transformer里的主要作用对自注意力机制计算得到的表示进一步抽象。同时在它两次线性变换之间还存在非线性变化,这说明整个网络还是需要一些非线性变换来提高模型整体的泛化能力。简单来说,ffn的作用主要还是对自注意力机制计算得到的结果进行进一步的抽象和学习,加深模型的理解。
Q2:Transformer中注意力矩阵的padding部分为什么不mask为0?
A2:Mask机制是基于softmax,对于e取负无穷次幂为0,如果把padding的mask设置为0的话,e的0次幂是1,会对注意力机制的计算产生影响,这并不是我们所期望的。实际上mask的核心就是如何把这些掩码的位置设置为某些值,然后在我们之后的概率计算中不会对非padding部分产生影响,所以最通用的方法就是把padding的mask设置为负无穷。
Q3:神经网络都是Encoder-Decoder架构吗?
A3:Encoder-Decoder结构主要还是解决类似于翻译这种理解生成的任务,它需要用编码器去处理源语言表示,进行抽象,然后解码器在解码每一个词的过程中通过编码-解码注意力的方法进行源语言和目标语言信息的交互,捕获两种语言信息之间的映射。所以对于翻译、摘要之类的任务还是通常采用编码器-解码器结构的模型。但是现在这种通用的大语言模型比如GPT3,它仅仅是Decoder-only的,也可以完成翻译之类的任务。此外在处理一些下游任务比较稀缺的自然语言理解(NLU)任务时,通常Encoder-only的模型便可以取得很好的效果,例如BERT等一系列预训练模型。
Q4:如何看待Transformer在cv上的应用前景?未来有可能替代cnn吗?
A4:我觉得这是一个非常好的问题,在刚刚的报告中我也提到了,Transformer已经不仅仅局限在机器翻译,甚至是自然语言处理,在一些视觉、语音、甚至蛋白质合成等其他领域都已经是遍地开花。那Transformer能不能替代CNN,我觉得这是一个非常尖锐的问题,我本身不是做CV的,所以说如果我说它能替代CNN肯定没那么有说服力。但是我们能够观测到一个趋势,就是像以谷歌Vision Transformer 为首的一系列工作,已经能证明Transformer only的一些模型已经能够代替CNN在一些视觉的经典任务上取得非常好的成绩,尤其是Transformer架构非常适合进行大规模的预训练。那么我们可以采用这种ViT进行大规模预训练,然后在下游任务上比如说图像识别,或者目标检测任务上再进行一些finetune,然后就可以取得非常好的效果。另外像微软之前的工作Swin Transformer,它实际上就是把CNN的局部卷积计算思想和Transformer的全局注意力计算机制进行相应的结合,荣获了ICCV的Best Paper,这个工作对后续的影响力非常大,它证明了Transformer可以非常好地去处理CV的一些任务。包括在2022那一年中的各大顶会像CVPR等都可以看到对卷积的局部建模和注意力全局建模的结合是一个非常有前景的趋势,有很多相关paper在这一年像雨后春笋一样涌出。当然在自然语言处理领域,在之前的CCMT中的Tutorial中,我们也介绍了一些关于局部建模的方法,感兴趣的同学可以去进行查阅。所以说我的观点是Transformer不能说完全胜任CV任务,但是在未来CNN和Transformer的结合一定是大势所趋的。
Q5:Transformer的关键优势是什么?
A5:Transformer 的优势首先在于它的这个注意力机制,从这个整个计算架构来说,它对比像这种基于循环神经网络来说,它的一个显著优势就是它具有非常高的一个并行性。所以说它可以非常高效地处理大规模的数据计算。另外一个优势,比如对比卷积网络来说,它可以非常容易的对整句话中不同位置的信息进行全局的抽象,而卷积可能更聚焦在一个局部窗口内的局部信息。而对文本的大多数任务来说,其实全局建模就足够了。但是我也刚才提到了,像这种相对位置的编码,或者是一些局部建模的一些其他的手段,都是可以进一步增强Transformer 表示能力的有效的方法。比如说相对位置编码可以对attention 的计算进行限制,让它能够在关注全局的同时,额外地关注到局部窗口内的某些词和词之间信息的交换。这也导致了Transformer 高引用量,它后续有很多的变种模型,针对不同的问题做了不同的优化。
以上就是直播问答环节的全部内容,更多关于报告的详细内容可点击下方阅读原文访问机器翻译学堂(https://school.niutrans.com)观看直播回放。NiuTrans Talk,是由东北大学自然语言处理实验室主办,小牛雅智、小牛翻译协办,每期将邀请到不同领域的机器翻译专家进行讲解,分享行业干货知识,带你走进机器翻译的世界。更多精彩内容尽在小牛翻译直播间 ,想了解更多有关机器翻译的内容请关注机器翻译学堂或小牛翻译官方微博号,与小牛翻译一起探讨机器翻译技术。
专注于机器翻译技术基础研究50年,拥有百余人的机器翻译产学研团队,自主研发以中文为核心的NiuTrans机器翻译系统,支持388种语言随心互译。通过丰富的应用与功能,为用户提供机器翻译服务全栈式解决方案,致力于为机器翻译产业化应用提供基础平台,帮助企业级用户在国际业务中消除语言障碍。