LLM原理和技术系列内容摘要总结

NLP技术发展有较长时间的历史了,这篇文章主要介绍最新的基于Transformer网络架构的语言模型相关的最近几年的较新的技术,以下为相关的技术摘要和总结,如有问题和疑问或不正确的地方,欢迎一起讨论沟通并更新,同时欢迎读者提出改进的意见和建议,希望去做的更好。

1、基于文本数据的预处理,包括各种分词方法实现的分词器(Tokenizer),从简单的基于标点符号的分词,到复杂一些的基于词根词源处理以及一些数据的清理操作的高级分词,再进一步到基于WordPiece(主要在BERT中使用)和Byte Pair Encoding(主要在GPT中使用)的基于统计特性的面向大模型应用的词汇表构建方法,特备是后两者可以支持未登录词(OOV)的处理,而且是大语言模型常用的分词器,基于分词器就可以基于nn.Embedding(vocab_size, embedding_dim)层去构建词嵌入层(Module)以支持大模型的输入了,这种嵌入层和大模型的其他关键模块如Self Attention等一起参与参数的更新。

2、Attention is all you need. 介绍了Transformer在构建序列关系的双向上下文特性建模方便的优势,基于多头自注意力(Multi-head Attention Head)机制的编码器和(Masked Multi-head Attention Head和Multi-head Attention交叉注意力机制相结合)的解码器组成的自编码器应用结构或编码器解码器实现的seq2seq应用架构成为了NLP领域的最先进模型技术的关键技术创新和发明,为后续的BERT和GPT系列大模型创造了基础技术架构。

3、BERT为基于Transformer的自注意力机制的编码器架构,其基于两个训练任务进行的多任务训练,1为从句子中mask掉15%的token,然后从head中对应的位置进行预测出mask的原始的词汇;2为判单上下句子是否是自然连续的。BERT使用特殊词汇如“[CLS]”,“[SEP]”,”[MASK]”等以方便输入数据的表示。BERT的作用主要是提供预训练模型对语言上下文进行特征提取(embedding)将输出数据提供给下游的NLP任务如文本分类,问答系统等。

4、GPT模型为语言自回归任务,通过当前上下文预测下一个token,并不断将生成的token加入到当前上下文中继续预测后续的token的递推过程称为语言自回归任务。其网络模型为独立的Transformer的解码器结构,且和自编码器中的解码器不同的是,每一个Transformer block中只有一个Masked Multihead Attention的实现,GPT的模型的不同版本的参数量差别大,训练数据集大小差异也挺大。GPT-3模型支持的输入上下文token数目最大有2048个,embedding_dim也达到了12288,有96个Transformer block组成,参数量达到了千亿级别。

5、GPT-3.5(Instruct GPT)及以后版本,利用到了RLHF算法,即为基于人类反馈的强化学习算法,采用了PPO的两个policy network和价值网络去更新模型参数,其中policy netwrok的网络结构和GPT模型本身的一致,不同的token可以理解为不同的action,而价值网络的结构在head处加了一个线性层,输出价值标量值,策略网络和价值网络可以是共享Tranformer的基础结构,接出不同的head分别实现token预测和价值预测的任务。训练数据可以离线提前准备好,包括通过参考模型基于prompt生成的多个completion以及对应的基于reward model的打分等。 采用了基于优势函数的剪切的目标函数进行的PPO训练,其中在开源库TRL的实现中,reward为基于Reward Model的打分模型和基于Token Level的MDP建模中的参考模型(如SFT模型)和策略模型的每个token(时间点)的KL散度惩罚项作为综合的激励,因此在TRL的实现中,同时实现了基于KL散度的惩罚和基于策略更新幅度的裁剪相结合的两方面的约束。

以上内容已经做了相关的视频的录制,内容请参考引文2。

References


Posted

in

by

Tags:

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *