1.1 基于Colossal-AI低成本实现类ChatGPT迷你版的训练过程

互联资讯 2023-04-19 05:08:03 0

2023年11月20日每日一猜答案：。答案：ABC。
每日一猜答案分析：

近期，除了研究ChatGPT背后的各种技术细节不断看论文(至少100篇，100篇目录见此：ChatGPT相关技术必读论文100篇)，还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)?

本文一开始是作为此文《ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT》的第4部分，但随着研究深入为避免该文篇幅又过长，将把『第4部分开源项目』抽取出来独立成本文，然后不断续写本文到最终2万字左右(3.22日7000余字)

毕竟我上半年的目标之一，便是把ChatGPT涉及的所有一切关键技术细节，以及相关的开源项目都研究的透透的，故过程中会不断产出一篇篇新文章出来，比如：

微积分和概率统计极简入门
一文通透优化算法
强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
ChatGPT技术原理解析(本系列核心主体，也是同类解读里最清晰、全面、细致的一篇)
ChatGPT相关技术论文100篇
类ChatGPT开源项目
CV多模态模型发展史(23年4月发布)，详述GPT4背后多模态的能力起源与发展历史，包括但不限于DTER、DDPM、【【微信】】、CLIP、Swin Transformer、DALL・E 2、Stable Diffusion、BEiT-3、【【微信】】、GPT4等.

?虽说GPT3在2020年就出来了，但OpenAI并未开源，所以直到一年半后以后才有国内外各个团队比如DeepMind等陆续复现出来，这些大厂的复现代码我们自然无法窥知一二，毕竟人家也未开源出来

再到后来基于GPT3的InstructGPT、基于GPT3.5ChatGPT初版(GPT3.5的参数规模也尚无准确定论)、GPT4均未开源，OpenAI不再open，好在Meta等公司或研究者开源出了一系列类ChatGPT项目，本部分针对其中部分做下简要推荐(根据发布顺序排序)

2.15，很多朋友在GitHub上发现了一个基于【【微信】】低成本实现类ChatGPT迷你版训练过程的开源项目(基于OPT + RLHF + PPO)，虽是类似GPT3的开源项目与RLHF的结合，但可以增进我们对ChatGPT的理解，该项目有几个不错的特点

很多同学一看到DL，便会想到大数据，而数据量一大，还用CPU处理的话很可能训练一个小任务都得半天，而如果用GPU跑，可能一两分钟就出来了。于此，在深度学习大火的那几年，特别是AlphaGo出来的16年起，我司七月在线便分别为VIP、AI系统大课、在职提升大课、求职/论文/申博/留学1V1辅导提供GPU云平台进行实战训练但如果想训练那种千亿参数规模的开源模型，就不只是有GPU就完事了，比如1750亿参数规模这种得用64张AI 100(即便经过一系列内存开销上的优化，也得至少32张AI 100，单张AI 100售价10万以上，且现在还经常没货)，这样的硬件要求是大部分个人是无法具备的，所以该开源项目提供了单GPU、独立4/8-GPUs 的版本
如下代码所示，启动简单
训练过程明确清晰，如下图(由于上文已经详细介绍过ChatGPT的训练步骤，故不再赘述)

?此外，据钟博士在我所维护的『Machine Learning读书会群』里所说，【【微信】】的并行效率确实不错，是新加坡的一个初创团队推出的，但目前尚没有团队采用【【微信】】框架来做主训练框架训练175b级别的超大模型，可以再了解下Meta家训练OPT用的Metaseq

此外，GitHub上还有这些项目

PaLM-rlhf-pytorch 该项目是在PaLM架构之上实现RLHF，可以理解为基于PaLM的ChatGPT
Open-Assistant 它旨在让每一个人都可以访问基于聊天的大语言模型，项目作者希望借此在语言创新方面掀起一场革命，就像 stable diffusion 帮助世界以新的方式创造艺术和图像一样项目作者计划收集高质量人工生成指令执行样本（指示 + 响应），目标大于 50k，对于收集到的每个指示，他们将采样多个补全结果，之后进入基于指示和奖励模型的RLHF训练阶段

一直致力于LLM模型研究的国外TOP 3大厂除了OpenAI、Google，便是Meta(原来的Facebook)

Meta曾第一个发布了基于LLM的聊天机器人――BlenderBot 3，但输出不够安全，很快下线。再后来，Meta发布一个专门为科学研究设计的模型Galactica，但用户期望过高，发布三天后又下线

2.24日，Meta通过论文《LLaMA: Open and Efficient Foundation Language Models》发布了自家的大型语言模型LLaMA，有多个参数规模的版本(7B 13B 33B 65B)

LLaMA只使用公开的数据(CommonCrawl的数据占比67%，C4数据占比15%，Github Wikipedia Books这三项数据均各自占比4.5%，ArXiv占比2.5%，【【微信】】占比2%)，论文中提到

When training a 65B-parameter model, our code processes around 380 tokens/sec/GPU on 2048 A100 GPU with 80GB of RAM.

This means that training o【【微信】】g 1.4T tokens takes approximately 21 days

且试图证明小模型在足够多的的数据上训练后，也能达到甚至超过大模型的效果

比如13B参数的版本在多项基准上测试的效果好于2020年的参数规模达175B的GPT-3
而对于65B参数的LLaMA，则可与DeepMind的Chinchilla(70B参数)和谷歌的PaLM(540B参数)旗鼓相当
且Meta还尝试使用了论文「Scaling Instruction-Finetuned Language Models」中介绍的指令微调方法，由此产生的模型LLaMA-I，在MMLU(Massi【【微信】】nderstanding，大型多任务语言理解)上要优于Google的指令微调模型Flan-PaLM-cont(62B)

模型结构上，除了继续基于Transformer这个架构外

为了提高训练的稳定性，对每个transformer子层的输入进行归一化，而不是对输出进行归一化且使用由Zhang和Sennrich(2019)提出的RMSNorm归一化函数
用Shazeer(2020)提出的SwiGLU替代ReLU
删除absolute positional embeddings, 在网络的每一层添加RoPE

LLaMA发布不久后，一些研究者基于它做了不少工作

一开始最小参数7B的模型也需要近30GB的GPU才能运行，但通过比特和字节库进行浮点优化，能够让模型在单个N【【微信】】上运行
之后，GitHub 上的一名研究人员甚至能够在Ryzen 7900X CPU上运行LLM的7B 版本，每秒能推断出几个单词
再之后，有研究者推出了llama.cpp，无需 GPU，就能运行 LLaMA llama.cpp 项目实现了在MacBook上运行 LLaMA，还有开发者成功的在 4GB RAM 的树莓派上运行了 LLaMA 7B，总结而言，即使开发者没有GPU ，也能运行 LLaMA 模型
再之后，初创公司 Nebuly AI开源了RLHF版的LLaMA，即ChatLLaMA的训练方法由于LLaMA没有使用RLHF方法，因此ChatLLaMA的训练过程类似 ChatGPT，该项目允许基于预训练的 LLaMA 模型构建 ChatGPT 形式的服务与 ChatGPT 相比，LLaMA 架构更小，但训练过程和单GPU推理速度更快，成本更低且该库还支持所有的 LLaMA 模型架构（7B/13B/33B/65B），因此用户可以根据训练时间和推理性能偏好对模型进行微调

3月中旬，斯坦福发布Alpaca：号称只花100美元，人人都可微调Meta家70亿参数的LLaMA大模型(即LLaMA 7B)，具体做法是通过52k指令数据，然后在8个80GB A100上训练3个小时，最终性能比肩GPT-3.5(text-davinci-003)

论文《Alpaca: A Strong Open-Source Instruction-Following Model》
代码地址：https://github.com/tatsu-lab/stanford_alpaca

而斯坦福团队微调LLaMA 7B所用的52K指令数据，便是通过Self-Instruct『Self-Instruct是来自华盛顿大学Yizhong Wang等22年12月通过这篇论文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》提出的』提示GPT3的API拿到的

?具体而言，论文中提出

人工设计175个任务，每个任务都有对应的{指令输入输出/实例}或{指令输出/实例}，将这175个任务数据作为种子集
然后提示模型比如GPT3对应的text-da【【微信】】 (原论文中没用text-davinci-003，because their newer engines are trained with the latest user data and are likely to already see the SUPERNI e【【微信】】，但实际应用时比如斯坦福Alpaca可以指定text-davinci-003生成指令)，使用种子集作为上下文示例来生成更多新的指令
对该模型生成的指令判断是否分类任务
使用模型生成实例
对上述模型生成的数据{指令输入输出/实例}过滤掉低质量或相似度高的
将经过过滤和后处理的数据添加到种子池中一直重复上述2-6步直到种子池有足够多的数据

而斯坦福的Alpaca，就是花了不到500美元使用OpenAI API生成了5.2万个这样的示例微调LLaMA搞出来的，个人觉得可以取名为?instructLLaMA-7B，^_^

Stanford Alpaca的种子任务都是英语，收集的数据也都是英文，因此训练出来的模型未对中文优化。为了提升对话模型在中文上的效果，开源中文对话大模型70 亿参数的 BELLE（Bloom-Enhanced Large Language model Engine）来了(项目地址)。

它基于Stanford Alpaca完成，但进行了中文优化，并对生成代码进行了一些修改，不仅如此，模型调优也仅使用由 GPT3.5 (默认使用模型text-davinci-003，如果想使用ChatGPT的API比如gpt-3.5-turbo模型，可通过参数控制) 生产的数据（不包含任何其他数据）。

在数据方面，该项目开源了基于Stanford Alpaca的数据收集代码，基于这段代码生成了约 100 万条中文数据，结合 Alpaca 的 5.2 万条英文数据，在 BLOOMZ-7B 模型训练得到的 checkpoint 上传在 Hugging Face

BLOOM是由HuggingFace于2023年3月中旬推出的大模型(HuggingFace是著名开源工具Transformers的开发公司，很多推理工具都会支持Transformers中的模型)，规模最大版本的参数量达到176B(GPT-3是175B)，对应的论文为《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》(翻译之一，解读之一)

截至23年3月中旬，超过100B参数量且能够支持中文的开源大模型只有BLOOM和GLM-130B

该项目主要包含以下三部分内容：

175 个中文种子任务，斯坦福Alpaca一样，每个任务都包含对应的指令/任务、prompt、输出? zh_seed_tasks.jsonl：样例如下?{"id": "seed_task_20", "name": "horror_mo【【微信】】", "instruction": "你需要为一部恐怖电影写一个创意的开场场景。", "instances": [{"input": "","output":" 太阳已经落山，留下了一个黑暗的小镇。微风吹拂空荡的街道，让每一个冒险走出门外的人感到一阵寒意。唯一的声音是被风吹动的树叶发出的轻微沙沙声。突然，一声令人毛骨悚然的尖叫声划破了寂静，随后是玻璃破碎的声音。一所房子亮起了灯光，可以看到一个人影朝镇中心奔跑。当> 那个人影越来越靠近时，清楚地看到那是一个年轻女子，她浑身血迹斑斑。"}], "is_classification": false}
? prompt_cn.txt: 生成所使用的提示语? 0.5M 生成的数据
生成数据及其代码沿用 Alpaca 的方式： pip install -r re【【微信】】.txt export OPENAI_API_KEY=YOUR_API_KEY python generate_instruction.py generate_instruction_following_data 默认使用 Completion API，模型 text-davinci-003。如果想使用 Chat API 并使用 gpt-3.5-turbo 模型，可通过参数控制： python generate_instruction.py generate_instruction_following_data \ --api=chat --model_name=gpt-3.5-turbo 输出文件在 Belle.train.json，可以人工筛选后再使用
基于 BLOOMZ-7B1-mt 模型和 Belle.train.json 训练模型

在2022年上半年，当时主流的预训练框架可以分为三种：

autoregressive，自回归模型的代表是单向的GPT，本质上是一个从左到右的语言模型，常用于无条件生成任务（unconditional generation），缺点是无法利用到下文的信息
autoencoding，自编码模型是通过某个降噪目标(如掩码语言模型，简单理解就是通过挖洞，训练模型做完形填空的能力)训练的语言编码器，如双向的BERT、ALBERT、RoBERTa、DeBERTa 自编码模型擅长自然语言理解任务（natural language understanding tasks），常被用来生成句子的上下文表示，缺点是不适合生成任务
encoder-decoder，则是一个完整的Transformer结构，包含一个编码器和一个解码器，以T5、BART为代表，常用于有条件的生成任务（conditional generation）细致来说，T5的编码器中的注意力是双向，解码器中的注意力是单向的，因此可同时应用于自然语言理解任务和生成任务。但T5为了达到和RoBERTa和DeBERTa相似的性能，往往需要更多的参数量

这三种预训练模型各自称霸一方，那么问题来了，可否结合三种预训练模型，以成天下之一统？这便是2022年5月发表的这篇论文《GLM: General Language Model Pretraining with Autoregressi【【微信】】》的出发点，它提出了GLM架构(这是张义策关于GLM论文的解读之一，下面三小节的内容主要参考自该篇解读)

首先，考虑到三类预训练模型的训练目标

GPT的训练目标是从左到右的文本生成
BERT的训练目标是对文本进行随机掩码，然后预测被掩码的词
T5则是接受一段文本，从左到右的生成另一段文本

为了大一统，我们必须在结构和训练目标上兼容这三种预训练模型。如何实现呢？文章给出的解决方法

结构上，只需要GLM中同时存在单向注意力和双向注意力即可在原本的Transformer模型中，这两种注意力机制是通过修改attention mask实现的当attention_mask是全1矩阵的时候，这时注意力是双向的当attention_mask是三角矩阵的时候（如下图），注意力就是单向类似地，我们可以在只使用Transformer编码器的情况下，自定义attention mask来兼容三种模型结构
训练目标上，这篇文章提出一个自回归空格填充的任务（Autoregressi【【微信】】），来兼容三种预训练目标自回归填充有些类似掩码语言模型，首先采样输入文本中部分片段，将其替换为[MASK]标记，然后预测[MASK]所对应的文本片段，与掩码语言模型不同的是，预测的过程是采用自回归的方式具体来说，? 当被掩码的片段长度为1的时候，空格填充任务等价于掩码语言建模，类似BERT? 当将文本1和文本2拼接在一起，然后将文本2整体掩码掉，空格填充任务就等价于条件语言生成任务，类似T5/BART? 当全部的文本都被掩码时，空格填充任务就等价于无条件语言生成任务，类似GPT

假设原始的文本序列为，采样的两个文本片段为??和??，那么掩码后的文本序列为?（以下简称Part A），如上图所示，拆解图中的三块分别可得

我们要根据第一个??解码出??，根据第二个依次解码出??，那怎么从??处解码出变长的序列吗？这就需要用到开始标记??和结束标记??了
我们从开始标记?开始依次解码出被掩码的文本片段，直至结束标记??。通过本博客内的Transformer笔记可知，Transformer中的位置信息是通过位置向量来记录的在GLM中，位置向量有两个，一个用来记录Part A中的相对顺序，一个用来记录被掩码的文本片段（简称为Part B）中的相对顺序
此外，还需要通过自定义自注意掩码(attention mask)来达到以下目的：? 双向编码器Part A中的词彼此可见，即图(d)中蓝色框中的区域? 单向解码器Part B中的词单向可见，即图(d)黄色框的区域? Part B可见Part A? 其余不可见，即图(d)中灰色的区域

需要说明的是，Part B包含所有被掩码的文本片段，但是文本片段的相对顺序是随机打乱的

作者使用了两个预训练目标来优化GLM，两个目标交替进行：

文档级别的预测/生成：从文档中随机采样一个文本片段进行掩码，片段的长度为文档长度的50%-100%
句子级别的预测/生成：从文档中随机掩码若干文本片段，每个文本片段必须为完整的句子，被掩码的词数量为整个文档长度的15%

尽管GLM是BERT、GPT、T5三者的结合，但是在预训练时，为了适应预训练的目标，作者还是选择掩码较长的文本片段，以确保GLM的文本生成能力，并在微调的时候将自然语言理解任务也转化为生成任务，如情感分类任务转化为填充空白的任

chatgpt中的chat什么意思如何利用好chatgpt工具

chatGPT中的GPT,chatthit,chat *p,chattr

ChatGPT不仅能够写诗、写代码、写文案，甚至能独立完成一篇学术论文。与前几代AI相比，ChatGPT已经出现了质的飞跃，对人类创造力、相关技能和工作的冲击是巨大且令人始料未及的……关于ChatGPT的传说瞬间遍布大街小巷。

不过正当人们对ChatGPT跃跃欲试之时，却发现其并不十分友好，你需要用国外手机号注册，即使注册成功之后，还因为各种限制无法使用。今天，我们就来告诉大家如何简便快速的使用ChatGPT，无论是PC端还是移动端。ChatGPT的全称就是Chat Generati【【微信】】rmer，中文翻译为：聊天生成预训练转换器，从根源上来说是一个基于GPT的聊天应用，所以我们想轻松的使用ChatGPT，可以从“.chat”域名入手。“.chat”域名是Identity Digital注册局旗下一款意为“聊天”的描述性域名，此前被广泛应用在社交网站或聊天网站等领域，而当ChatGPT风靡全球后，众多人工智能相关的公司或网站纷纷启用.chat域名，也因此.chat域名成为了当前Identity Digital注册局旗下最为火爆的描述性域名之一。今天我们介绍一些以.chat为顶级域名的基于ChatGPT的网站，无需注册，无需复杂操作，即开即用！

无障碍访问ChatGPT――chat-gpt.chat

chat-gpt.chat是一个由国内开发者开发的网站，其内置了ChatGPT的API，不用任何多余操作，仅需在对话框中输入文字即可，且不限语种。不仅如此，你可以用微信关注其公众号，这样便可以在公众号中随时使用ChatGPT提问各种问题。

适用移动端的ChatGPT――gptgate.chat

gptgate.chat同样链接自ChatGPT的API接口，同样无需任何操作直接使用。网站版式比较适合移动端，你可以把该域名保留在手机浏览器客户端内，随用随调，非常方便。AI作图、聊天导航――feishu.chat

当然，AI不仅仅只有ChatGPT，其竞争对手犹如雨后春笋，且都实力不俗，不仅仅可以用来聊天，还可以绘画、视频、写小说等等，feishu.chat便是一个AI应用的导航网站，链接了众多的各类AI网站或APP，其中免费的AI应用也占相当比例。比如百度的AI绘画――文心一格、阿里魔塔的AI视频、AI写作等，同时还有大量国外的AI网站的链接，可以帮助我们自动生成PPT、AI写歌、AI修复老照片等，此外，feishu.chat还提供了一些关于ChatGPT等AI模型的注册教程、使用方法等宝典类的内容，帮助我们轻松且快速的跨入AI时代。

关于Identity DigitalIdentity Digital为Donuts、Afilias和TrueName整合后的全新品牌，Identity Digital Inc.通过域名和相关技术简化和连接在线世界，使人们能够建立、营销和拥有他们的真实数字身份。Identity Digital拥有近300个域名组合，例如：.Ltd、.live和.【【微信】】等，在其创新的注册服务平台上运营着大约 2500 万个域名。Identity Digital总部位于华盛顿州贝尔维尤，是一家拥有约300名员工的全球性公司。欲了解更多信息，请访问identity.digital。返回搜狐，查看更多

责任编辑：

本文地址： https://www.528683.com//show-402452.html