用chatgpt写excel分析脚本 谈谈ChatGPT背后的核心技术
淘宝搜:【红包到手500】领超级红包,京东搜:【红包到手500】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
本文旨在对chatGPT的能力和实现路径做一个细致分析和梳理,有助于深入理解chatGPT的发展路线。
GPT的后续发展会逐渐从最开始的相关性,发展到推理和决策能力,越来越接近人类的思维能力。最近发布的GPT4.0相比chatGPT在推理方面有很大提升,就是上述论断的一个有力证据。
本文主要论述以下方面,希望能够读者能够更好的理解chatGPT的发展。
- Correlation(相关性):Language Generation(语言生成)、in-context learning(背景学习)、instruction response(指示学习)
- Reasoning(推理性):Chain of thoughts(思维链)
- 决策能力:RLHF(人类反馈强化学习)
大模型+能力挖掘拓展
- GPT系列(GPT1-GPT2-GPT3)发展提供了强大的base大模型。从最开始需要进行fine-tune实现下游任务适配的GPT1,到具备情景学习的GPT3模型,不再需要fine-tune就具备下游任务能力。
- GPT3系列和GPT3.5系列,实现了能力扩展和挖掘,包括chain of thought(code training)、alignment with human (instruction learning and RLHF)。
- 通过预训练,获得了语言生成能力、知识能力和in-context learning 能力
- 存储知识的能力来源于175B参数。
- 思维链能力可能主要来源于代码训练。(模型code-da【【微信】】)
Instruction learning 指令学习和RLHF
- 通过scale instruction tuning,获得回复人类指令的能力和泛化能力(回复新指令的能力)
- 通过instuction learning和RLHF,生成符合人类价值观念的回复能力,如客观、安全、不偏颇、有信息的回复。
RLHF 人工反馈强化学习
- 生成符合人类价值观念的回复能力
- 前后文对话能力
- 明确知识边界能力
| 训练方法 | 代表方法 | 训练数据 | 主要功能 | 能力范围 |
|---|---|---|---|---|
| training | pre-training、code-training | 数量多 | 在LLM能力的基础上上,构建其他能力 | language generation, in-context learning, chain of thought, |
| tuning | instruction tuning,fine-tuning,RLHF | 数量少 | 挖掘LLM本身的隐藏能力 | respond to human instructions, generate human-style response |
- In-context learning: 通过pre-training,LLM获取的能力。首次在GPT3中出现。展示给LLM一些任务示例,LLM就可以完成任务。
- 能力来源:通过pre-training使LLM模型获取的情景学习能力的具体原因并不清楚。一个直觉的解释在于来源于训练数据。Intuitively, 【【微信】】om the fact that data points of the same task are ordered se【【微信】】atch during pre-training.
- In-context learning: 展示给LLM一些任务示例,LLM就可以完成任务。GPT3的一个核心能力就在于in-context learning
- zero-shot: 不需要给例子,就具备的能力。
- fine-tuning需要对LLM进行fine-tune,需要更新LLM模型参数。in-context learning和zero-shot 不需要更新模型参数。
- instruction tuning的训练降低了in-context learning的能力,提升了zero-shot能力。instruction tuning是一种alignment 用户意图的方法,instruction tuning与zero-shot能力吻合,但是与in-context learning的训练方向不同。只需要给出instruction就可以实现回复,如果需要给出多个示例in-context learning,说明alignment不够。
- ChatGPT seems to have sacrificed nearly all of its in-context learning ability to trade for the ability to model dialog context.
- 训练方式:
- 在LLM基础上进行tuning
- 可以通过监督学习也可以通过强化学习实现。
- 指令回复能力:
- 指令回复能力来源于指令微调instruction tuning
- 指令回复的泛化能力,对于训练数据中没有见过的指令,仍然具有回复的能力。T0, Flan, and FlanPaLM papers 都证明了这一点。
- 指令回复能力来源:
- 训练数据相比pre-training少很多
- 指令回复能力和zero-shot生成能力,更可能来源模型本身,instruction tuning作为一种激发能力的手段。the ability to follow instruction and zero-shot generalization may already be in the base model and is later unlocked (not injected) by instruction tuning.
训练目标
instruction tuning是更好的挖掘语言模型本身的能力,是对语言模型本身的知识的疏导,泛化性更好。instruction tuning相当于一种风格的引导,比如引导生成人类偏好的回复。更多的是一种方向的引导,不限于具体的任务。
finetune往往聚焦于更具体的任务或者更小的领域,在语言模型的能力的基础上,引导模型在某一个方向或者领域上效果更好。落脚点比较具体,泛化性也就会相对较差。
实现方式
LLM能力挖掘
- 相同点:指示学习和提示学习的目的都是去挖掘语言模型本身具备的知识。
- 不同点:不同的是Prompt是激发语言模型的补全能力,例如根据上半句生成下半句。Instruct是激发语言模型的理解能力,它通过给出更明显的指令,让模型去做出正确的行动。
数据形式
- prompt 提示学习:给女朋友买了这个项链,她很喜欢,这个项链___。
- instruction 指示学习:判断这句话的情感:给女朋友买了这个项链,她很喜欢。选项:A=好;B=一般;C=差。
实现方式
在LLM的基础上进行code training
- prompt激发语言模型的补全能力,例如根据上半句生成下半句,或是完形填空等。
- Instruct是激发语言模型的理解能力,它通过给出更明显的指令,让模型去做出正确的行动。
- in-context learning是激发语言模型的理解能力
三种方法,都与语言模型的生成能力(训练目标方式)直接相关,底层原理可能是来自模型中的注意力机制带来的相关性,而不是推理和因果性。这可能也是出现一本正经胡说八道的原因之一。
相关性是推理的必要条件,但不是充分条件。即推理依赖于相关性,但是只有相关性并不够。
training on code
- code 数据内部本身具有严密的逻辑性
- 代码训练可能会赋予模型long-term dependency能力
- LLM具有的思维链的推理能力也许是代码训练带来的
实现Reasoning的条件:
- 训练语料有逻辑性:code(内在的逻辑性是很强的)、论文(有明显逻辑性的训练语料、利用逻辑性很强的长对话(分拆)对模型进行训练、辩论语料、知识图谱数据)。code也是instruct tuning的一种。
- 模型能够学习到:大模型涌现能力,attention相关性
对于生成的内容做决策筛选,给出最终回复。
将人类评价引入了大语言模型的训练,以使得基于一般文本语料训练得到的大语言模型更符合人类价值观念。
- 人类评价很难量化,通过RLHF引入
- 风格、前后连贯(矛盾)、有趣、内容充实,怎么衡量,怎么转化成loss?生成质量的好坏判定,有很多主观因素且与上下文相关。生成文本的人工反馈作为性能的衡量标准,并且更进一步,将反馈作为损失来优化模型。
对话系统与chatGPT的RLHF:(如下图所示,为了更好的对比,chatGPT的图中给出了chatGPT的实现过程,具体应用时只是一个chatGPT的模型):
- 传统的对话系统,包含多个对话相关功能模块,在query请求下,最终由DM模块综合多个模块的输出,给出期望回复。
- chatGPT本身模型功能强大,在query请求下,可以给出多种回复,通过RLHF的训练,决策出最终期望的回复。
具体效果:
- 给出符合人类价值观念的回复,给出信息含量丰富的回复
- 拒绝improper 【【微信】】
- 拒绝知识边界之外的问题
- 给出有条理和有解释的回复
在LLM进行RLHF的tuning,训练数据远少于pre-training的数据。上述能力的主要来源于LLM,RLHF是一种激发方式(挖掘方式)。
从上面的论述可以看出,GPT大模型的发展路径存在如下的一个隐形脉络,从最开始的基于相关性的语言生成能力、情景学习能力、指示学习能力,发展到思维链的推理能力,再到基于强化学习学到的决策能力。
- Correlation:Language Generation、in-context learning、instruction response
- Reasoning:Chain of thoughts
- 决策能力:RLHF
?
chatgpt怎么创建模型
ChatGPT的工作原理
chatGPT 是一款由 OpenAI 开发的聊天机器人模型,它能够模拟人类的语言行为,与用户进行自然的交互。它的名称来源于它所使用的技术―― GPT-3架构,即生成式语言模型的第3代。
核心技术是 GPT-3 架构。它通过使用大量的训练数据来模拟人类的语言行为,并通过语法和语义分析,生成人类可以理解的文本。它可以根据上下文和语境,提供准确和恰当的回答,并模拟多种情绪和语气。这样,就可以让用户在与机器交互时,感受到更加真实和自然的对话体验。
ChatGPT是一种由OpenAI训练的大型语言模型。它使用了一种名为Transformer的深度学习架构,该架构极大地提高了语言理解和生成能力。它被训练了大量的文本数据,包括网页、书籍、新闻等,这使它能够对许多不同类型的话题进行回答和生成文本。它可以被用于聊天机器人、自动文本生成、语音识别和自然语言处理等应用。
训练过程非常复杂,需要大量的计算资源和数据。在训练过程中,模型会不断地学习语言的各种规则和模式,并且能够根据上下文进行语义理解。
ChatGPT的主要特点
让用户印象最深刻的是它有强大的语言理解和生成系统。其对话能力、文本生成能力、对不同语言表述的理解均很出色。它以对话为载体,可以回答多种多样的日常问题,对于多轮对话历史的记忆能力和篇幅增强。其次,与GPT3等大模型相比,ChatGPT回答更全面,可以多角度全方位进行回答和阐述,相较以往的大模型,知识被“挖掘”得更充分。它能降低了人类学习成本和节省时间成本,可以满足人类大部分日常需求,比如快速为人类改写确定目标的文字、大篇幅续写和生成小说、快速定位代码的bug等。
ChatGPT应用
ChatGPT对于文字模态的AIGC应用具有重要意义
它可以依附于对话形态的产品和载体大有空间,包括但不限于内容创作、客服机器人、虚拟人、机器翻译、游戏、社交、教育、家庭陪护等领域。这些或许都将是 ChatGPT 能快速落地的方向。
其中有些方向会涉及到交互的全面改革,比如机器翻译不再是传统的文本输入->实时翻译,而是随时以助手问答的形式出现。甚至给出一个大概笼统的中文意思,让机器给出对应英文。目前我们目前所做的写作产品,可能也会涉及创作模式的改变和革新。
有些方向会全面提升产品质量,比如已存在的客服机器人、虚拟人等。
ChatGPT作为文字形态的基础模型,自然可以与其他多模态结合
比如最近同为火热的Stable Diffusion模型,利用ChatGPT生成较佳的Prompt,对于AIGC内容和日趋火热的艺术创作,提供强大的文字形态的动力。
ChatGPT对于搜索引擎的代替性:ChatGPT可以作为搜索引擎的有效补充
但至于是否能代替搜索引擎(不少人关注的地方),抛开推理成本不谈,目前只从效果上来说为时尚早。
对于网络有答案的query,抽取就完全能满足,现友商最近就有这样的功能。网络上没有明确答案,即使检索了相关材料(ChatGPT应该还没有这样的功能),也没人能保证生成结果的可信度。
ChatGPT本身的升级
与WebGPT的结合对信息进行实时更新,并且对于事实真假进行判断。现在的ChatGPT没有实时更新和事实判断能力,而这如果结合WebGPT的自动搜索能力,让ChatGPT学会自己去海量知识库中探索和学习,预测可能会是GPT-4的一项能力。
ChatGPT会员
而想要体验最新版的GPT功能,就需要升级PLUS。升级PLUS需要一个可靠的支付方式,这时候虚拟信用卡就派上用场了,我们选择4399pay平台的虚拟虚拟信用卡开出来的虚拟卡进行支付就可以付款了。








