open ai创始人谈ai自主进化 最新的ai对话技术是什么样的
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
目录
一、前言
二、ChatGPT的技术原理
?阶段一:基于冷启动的有监督策略模型
?阶段二:基于奖励机制的训练模型
?阶段三:采用强化学习来增强预训练模型
三、使用案例
四、思考
问题一:ChatGPT如此强大,那未来可以商业化,孵化产品吗?
问题二:ChatGPT会代替传统的搜索引擎吗?
问题三:我们可以借鉴ChatGPT哪些方面呢?
五、ChatGPT 镜像
六、参考文献
12月1日,OpenAI公司官宣了其目前最强大的AI对话模型ChatGPT,最近几天极其火爆,朋友圈也都是案例,网上都是铺天盖地的ChatGPT相关案例和测试内容,效果确实非常震撼。上一次引起如此轰动的AI技术,NLP领域还是GPT3模型,那已经两年前的事情了,如今是恍如昨天。多模态领域则是DaLL E2、Stable Diffusion为代表的Diffusion model,这也是最近火了大半年的AIGC模型,常见就是输入几个关键词,模型可以用作作画,而且水平似乎已经超过普通人。如今,AI的星火又传到了ChatGPT身上,它也是属于AIGC领域。AI泡沫逐渐破裂的今天,AIGC又给了AI一副济世良药。ChatGPT主要是基于GPT3.5来实现的,OpenAI官方也说明GPT4模型即将来临,也更加期待他的效果。看来AIGC将会成为AI行业的一丝希望和温暖,AIGC或许是AI奇点,AI下半场主角。
说回ChatGPT,我们主要从两个角度,一个是技术角度来聊聊,另一个是脑洞比较大的案例上,看看有哪些业务场景。
首先,ChatGPT到底是采用了怎样的技术,才能做到如此超凡脱俗的效果?既然chatGPT功能如此强大,那么它可以取代Google、百度等现有搜索引擎吗?如果能,那是为什么,如果不能,又是为什么?
其次,ChatGPT到底有哪些较好的案例,这些案例都说明什么问题?给了AI从业人员哪些思考?
图 2022年gartner技术成熟曲线
现在访问 ChatGPT 官网至少需要满足以下两点:
1.?ChatGPT 账号
2.?特定地区(需要特定网络解决)
文章末尾提供了一个 ChatGPT 镜像,可直接访问,无需账号,无区域限制。
官方博客中介绍到,ChatGPT是基于GPT-3.5(模型card【【网址】】/ai-resources/pretrained-models/gpt-3-5?)微调的结果。ChatGPT是InstructGPT的兄弟模型(InstructGPT是官方训练的一个比GPT-3更好的遵循用户意图的语言模型,是基于OpenAI的alignment research技术研发的,比GPT-3更强的语言模型)。
ChatGPT的训练使用了基于人类反馈的强化学习( Reinforcement Learning from Human Feedback,RLHF)。这点与InstructGPT一样,但是在数据收集方面有差异。OpenAI使用监督下的微调训练了一个初始模型:人类AI训练员提供对话,他们在对话中扮演双方―用户和人工智能助理。这可以让训练者接触到模型编写的建议,以帮助他们组成他们的回应。
接下来是张俊林老师的一段描述,感觉非常能够总结官网的介绍。
整体技术路线上,ChatGPT在效果强大的GPT 3.5大规模语言模型(LLM,Large Language Model)基础上,引入“人工标注数据+强化学习”(RLHF,Reinforcement Learning from Human Feedback ,这里的人工反馈其实就是人工标注数据)来不断Fine-tune预训练语言模型,主要目的是让LLM模型学会理解人类的命令指令的含义(比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令),以及让LLM学会判断对于给定的prompt输入指令(用户的问题),什么样的答案是优质的(富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准)。
基于“人工标注数据+强化学习”,ChatGPT整体训练架构如下图所示。
图 整体训练流程图
具体而言,ChatGPT的训练流程分为三个阶段:基于冷启动的有监督策略模型、基于奖励机制的训练模型、采用强化学习来增强预训练模型。
靠GPT 3.5本身,尽管它很强,但是它很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令中蕴含的意图,首先会从测试用户提交的prompt(就是指令或问题)中随机抽取一批,靠专业的标注人员,给出指定prompt的高质量答案,然后用这些人工标注好的<prompt,answer>数据来Fine-tune GPT 3.5模型。经过这个过程,我们可以认为GPT 3.5初步具备了理解人类prompt中所包含意图,并根据这个意图给出相对高质量回答的能力,但是很明显,仅仅这样做是不够的。
这个阶段的主要目的是通过人工标注训练数据,来训练奖励模型。具体而言,随机抽样一批用户提交的prompt(大部分和第一阶段的相同),使用第一阶段Fine-tune好的冷启动模型,对于每个prompt,由冷启动模型生成K个不同的回答,于是模型产生出了<prompt,answer1>,<prompt,answer2>….<prompt,answerK>数据。之后,标注人员对K个结果按照很多标准(上面提到的相关性、富含信息性、有害信息等诸多标准)综合考虑进行排序,给出K个结果的排名顺序,这就是此阶段人工标注的数据。
接下来,我们准备利用这个排序结果数据来训练回报模型,采取的训练模式其实就是平常经常用到的pair-wise learning to rank。对于K个排序结果,两两组合,形成 (k 2) 个训练数据对,ChatGPT采取pair-wise loss来训练Reward Model。RM模型接受一个输入<prompt,answer>,给出评价回答质量高低的回报分数Score。对于一对训练数据<answer1,answer2>,我们假设人工排序中answer1排在answer2前面,那么Loss函数则鼓励RM模型对<prompt,answer1>的打分要比<prompt,answer2>的打分要高。
归纳下:在这个阶段里,首先由冷启动后的监督策略模型为每个prompt产生K个结果,人工根据结果质量由高到低排序,以此作为训练数据,通过pair-wise learning to rank模式来训练回报模型。对于学好的RM模型来说,输入<prompt,answer>,输出结果的质量得分,得分越高说明产生的回答质量越高。
第三阶段:采用强化学习来增强预训练模型的能力。本阶段无需人工标注数据,而是利用上一阶段学好的RM模型,靠RM打分结果来更新预训练模型参数。具体而言,首先,从用户提交的prompt里随机采样一批新的命令(指的是和第一第二阶段不同的新的prompt,这个其实是很重要的,对于提升LLM模型理解instruct指令的泛化能力很有帮助),且由冷启动模型来初始化PPO模型的参数。然后,对于随机抽取的prompt,使用PPO模型生成回答answer, 并用上一阶段训练好的RM模型给出answer质量评估的回报分数score,这个回报分数就是RM赋予给整个回答(由单词序列构成)的整体reward。有了单词序列的最终回报,就可以把每个单词看作一个时间步,把reward由后往前依次传递,由此产生的策略梯度可以更新PPO模型参数。这是标准的强化学习过程,目的是训练LLM产生高reward的答案,也即是产生符合RM标准的高质量回答。
如果我们不断重复第二和第三阶段,很明显,每一轮迭代都使得LLM模型能力越来越强。因为第二阶段通过人工标注数据来增强RM模型的能力,而第三阶段,经过增强的RM模型对新prompt产生的回答打分会更准,并利用强化学习来鼓励LLM模型学习新的高质量内容,这起到了类似利用伪标签扩充高质量训练数据的作用,于是LLM模型进一步得到增强。显然,第二阶段和第三阶段有相互促进的作用,这是为何不断迭代会有持续增强效果的原因。
尽管官方对于ChatGPT的能力描述很简单,但是从实际大家使用的期刊来看,这个系统可以做的事情远超大家想象。这里我们会列举目前收集的ChatGPT的使用案例,供大家参考。
案例序号 | 案例名称 | 案例来源 |
1 | 生成AI Prompt | href=【【网址】】/GuyP/status/1598020781065527296" https://twitter.com/GuyP/status/1598020781065527296 |
2 | 编写iOS SwiftUI APP | href=【【网址】】/a【【微信】】/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/a【【微信】】/status/【【QQ微信】】【【QQ微信】】 |
3 | 学习技术 | href=【【网址】】/HamelHusain/status/1598834924848836609" https://twitter.com/HamelHusain/status/1598834924848836609 |
4 | 写出一个可以生成小鸟图片的Python脚本 | href=【【网址】】/bgavran3/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/bgavran3/status/【【QQ微信】】【【QQ微信】】 |
5 | 写【【微信】】脚本 | href=【【网址】】/【【微信】】/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/【【微信】】/status/【【QQ微信】】【【QQ微信】】 |
6 | 参与SAT考试 | href=【【网址】】/da【【微信】】/status/【【QQ微信】】569" https://twitter.com/da【【微信】】/status/【【QQ微信】】569 |
7 | 自然语言转成Latex | href=【【网址】】/jdjkelly/status/1598021488795586561" https://twitter.com/jdjkelly/status/1598021488795586561 |
8 | 解释代码 | href=【【网址】】/goodside/status/1598129631609380864" https://twitter.com/goodside/status/1598129631609380864 |
9 | 改写故事 | href=【【网址】】/raphaelmilliere/status/1598469100535259136" https://twitter.com/raphaelmilliere/status/1598469100535259136 |
10 | 【【微信】】代码 | href=【【网址】】/amasad/status/1598042665375105024" https://twitter.com/amasad/status/1598042665375105024 |
11 | 写计算机网络家庭作业 | href=【【网址】】/abhnvx/status/【【QQ微信】】【【QQ微信】】" https://twitter.com/abhnvx/status/【【QQ微信】】【【QQ微信】】 |
12 | 替代搜索引擎 | href=【【网址】】/RajJohri2019/status/1598492953764315137" https://twitter.com/RajJohri2019/status/1598492953764315137 |
13 | 创作短剧 | href=【【网址】】/rgodfrey/status/1598162900140445697" https://twitter.com/rgodfrey/status/1598162900140445697 |
14 | 创作食谱 | href=【【网址】】/stephsmithio/status/1598920887029628928" https://twitter.com/stephsmithio/status/1598920887029628928 |
15 | 反编译汇编代码 | href=【【网址】】/mahal0z/status/1598536939942006784" https://twitter.com/mahal0z/status/1598536939942006784 |
16 | 代写办公邮件 | href=【【网址】】/CubicleApril/status/1598753388895797282" https://twitter.com/CubicleApril/status/1598753388895797282 |
17 | 写年度总结报告 | href=【【网址】】/shanselman/status/1599073011050872832" https://twitter.com/shanselman/status/1599073011050872832 |
18 | 闲聊 | href=【【网址】】/t3dotgg/status/1598954493680713729" https://twitter.com/t3dotgg/status/1598954493680713729 |
19 | 撰写技术博客 | href=【【网址】】/goodside/status/1598235521675038722" https://twitter.com/goodside/status/1598235521675038722 |
20 | 逻辑推理问题 | href=【【网址】】/Robdeprop/status/1598285166971351040" https://twitter.com/Robdeprop/status/1598285166971351040 |
以上就是我们收集的关于ChatGPT的一些应用案例,很多内容都是重复的。不过从案例收集的结果来看。ChatGPT在编码上有很好的水平,同时在艺术创作、技术创作、办公、逻辑算术等方面都有很不错的表现。需要注意的是,ChatGPT是支持多轮对话的,它可以和你一起进行多次对话来修补回答。在写app和函数的案例中,如果你对答案不满意,可以要求怎么去修改它。这些案例让很多人认为这就是一个通用型人工智能的雏形,也是GPT-4的结果。
自己亲自体验了一把,玩嗨起来。
场景一:角色扮演:假如你是李白。看这作的诗集有模有样。