庆云古诗词

庆云古诗词

AIGC技术是什么,将给未来各行各业的发展带来什么影响?

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

aicde技术,ait技术,aip 技术,何为ai技术
公众号:BFT机器人

AIGC 的落地痛点在于成本高昂的通用大模型与下游垂直应用场景需求的不匹配。ChatGPT 热度持续提升,一方面推动了科技巨头持续加大 AI 投入,另一方面也直接带动下游付费意愿提升,进一步加速 AIGC 应用落地和商业变现,AIGC产业迎来发展良机。

  • 从内容形态来看,AIGC 应用包括文本、音频、图像、视频、代码、多模态等内容生成形式,根据红衫资本预测,AIGC 将首先在文本和代码领域落地应用,随后逐渐拓展至图像和视频领域。
  • 从应用价值来看,AIGC 应用价值体现在降本增效、提升内容质量、增加内容多样性、生成个性化内容等方面。在垂直领域,目前国内已有机器写稿、对话式 AI、报告生成等 AIGC 应用落地,技术价值主要在于替代人工实现降本增效。随着科技巨头的持续投入以及技术的迭代升级,AIGC 技术应用场景进一步拓宽,技术价值也有望从将本增效向额外价值转移。
  • AI+搜索:搜索是互联网的流量入口,微软、谷歌、百度均表示将率先将AI技术应用于搜索,未来有望重塑信息生成和呈现方式,成为新的流量入口。
  • AI 写作:AI写作可大幅提升效率,在具有较强规律性的结构化写作方面具有丰富应用场景。目前已在办公软件、新闻媒体等专业应用场景商业化落地。
  • AI 对话:AI 对话主要用于替代人类完成大量重复性、规则性对话任务,在金融、互联网、运营商等拥有大量 C 端用户的行业拥有广阔应用前景。ChatGPT在多项测试中已经超过人类,将对话 AI 提升至新的高度,未来应用空间广阔。
  • AI 翻译:在 AI 技术支持下,机器翻译效果持续优化,但在广义理解层面仍面临挑战。相比专业搜索工具,ChatGPT 具有更强的理解能力,在部分场景的翻译表现优于谷歌翻译和 DeepL,表现惊艳。
  • AI 作画:AI 作画可解决视觉内容创作门槛高、耗时长的痛点,对于内容创作的价值凸显。根据 6pen 预测,未来五年 10%-30%的图片内容将由 AI 参与生成,预计 2027 年市场规模有望超过 600 亿,空间广阔。
  • AI 视频:AI 已经可以辅助完成视频生成、替换、剪辑等多项任务,已在短视频、AI 修复等领域广发应用,下游需求旺盛,未来应用潜力广阔。理图像数据、生理电信号、DNA测序数据等多种数据辅助医务人员进行临床诊断决策的产品,具体应用包括AI肺结节辅助诊断、AI甲状腺超声辅助诊断、AI宫颈细胞辅助诊断等。
  • 2 月 24 日,科技部表示将把人工智能作为战略性新兴产业,作为新增长引擎,继续给予大力支持。
  • 2 月 25 日,上海市副市长李政表示加快多模态通用大模型研发攻关,建设更具影响力的人工智能上海高地,形成面向人工智能行业的多层次资本集群;上海经信委也表示积极发展 AIGC,加快构筑活跃的产业生态,形成 AIGC的自主关键技术。根据政策表述,未来支持的着力点包括关键人才培养、核心技术突破、产业生态构建以及下游应用探索等方面。

此前已有谷歌、百度、京东、科大讯飞、三六零等国内外科技巨头表示布局 AIGC 产业并推出类 ChatGPT 产品。2 月 23 日,阿里董事会主席张勇表示云计算是阿里巴巴面向未来的核心战略之一,阿里巴巴将全力构建好自己的 AI 预训练大模型。随着阿里、Meta 等公司也纷纷跟进,有望开启人工智能军备竞赛时代,AIGC 应用加速可期。

  • 降本增效:通过 AI 技术低成本、高效率地生成文字、图像等内容,降低人工和时间成本。如机器写稿,通过 AI 自动生成并由人工进行校对和修改,可以大幅提升工作效率。
  • 提升内容质量:AI 模型经过大数据的训练,知识积累量远高于人类水平,可以生成更高质量的内容。如 OpenAI 的 AI 作画产品 DALL・E 2,由 120 亿参数版本的 GPT-3 模型经过 4 亿对图像和文本训练而来,生成的内容已经接近中等画师的水平。
  • 增加内容多样性:AI 模型逐渐由单模态向多模态方向发展,多模态技术是指将图像、声音、文字等多类型内容融合学习,比如将“人”这一文本与人的图片联系在一起。从单模态向多模态的发展,丰富了 AIGC 的内容,使 AIGC 应用更具有通用性,已在视觉问答、视觉推理等任务中取得了非常好的效果。
  • 生成个性化内容:AI 模型可以根据个人喜好生成个性化内容。

在垂直领域,目前国内已有 AIGC技术的应用落地,包括机器写稿、对话式 AI、报告生成等,技术价值主要在于替代人工实现降本增效。

百度、京东、阿里、字节跳动等巨头在产品落地和商业变现上具备优势,将 AIGC 技术与自身业务结合,AIGC 技术应用场景进一步拓宽,技术价值也有望从将本增效向额外价值转移。

大厂持续投入、下游付费意愿提升,AIGC 迎来加速发展。

AIGC 的落地痛点在于成本高昂的通用大模型与下游垂直应用场景需求的不匹配。ChatGPT 热度持续提升,一方面推动了科技巨头持续加大 AI 投入,另一方面也直接带动下游付费意愿提升,进一步加速 AIGC 应用落地和商业变现,AIGC 产业迎来发展良机。

科技部高新技术司司长陈家昌表示“自然语言的大模型已经具备了面向通用人工智能的一些特征,在众多行业领域有着广泛的应用潜力”。

从应用场景来看,微软、谷歌、百度等纷纷表示将率先将 AI 技术应用于搜索领域,对话式 AI 能显著提升搜索体验,未来或将成为落地最快的应用场景。除此之外,AIGC 在办公软件、教育、医疗、城市、元宇宙等垂直行业也有着广泛应用。

图1:AIGC在办公软件、教育、医疗、城市、元宇宙等垂直行业也有着广泛应用

从内容形态来看,AIGC 包括文本、音频、图像、视频、代码、多模态等内容生成形式。

图2:AIGC应用空间广阔
图3:AIGC应用领域包括文字、图片、视频、代码等

搜索是互联网的流量入口,微软、谷歌、百度均表示将率先将 AI 技术应用于搜索领域。

根据 【【淘密令】】 数据,2023 年 1 月,Google、Bing、Baidu 在全球搜索市场的份额分别为 84.69%、8.85%、0.54%。根据 Similarweb 数据,谷歌是 2022 全球访问量最大的网站,市场份额仅 0.54%的百度访问量位列全球第六,流量入口属性凸显。

图4:Google搜索市场份额为84.69%(2023.1),资料来源:【【淘密令】】官网
图5:谷歌是2022年全球访问量最大的网站,资料来源:Similarweb

AI 与搜索结合有望重塑信息生成方式,或将成为新的流量入口。

ChatGPT 的对话模式对于用户更有吸引力,由于训练数据有限,同时真实性也无法得到保障,尚不具备替代搜索引擎的能力。ChatGPT 类 AI 聊天机器人与搜索引擎结合,则可以结合搜索和聊天的优点,有望改善搜索体验,重塑信息生成和呈现方式,成为新的流量入口。

谷歌已将预训练模型用于改善搜索

谷歌此前已将基于 【【淘密令】】 的 BERT模型以及 MUM 用于改善搜索,包括对多语种的理解以及在视频中标记关键时刻。2023 年 2 月 6 日,谷歌推出类 ChatGPT 聊天 AI 产品 Bard,并表示 AI 技术将率先应用于搜索业务,自动提炼搜索结果便于了解全局。

图6:谷歌已将预训练模型用于改善搜索,资料来源:谷歌官网
图7:谷歌表示AI技术将率先应用于搜索业务,资料来源:谷歌官网

百度也表示文心一言将率先应用于搜索。2023 年 2 月,百度宣布即将推出类ChatGPT 的对话式 AI 工具“文心一言”(ERNIE Bot)。李彦宏表示文心一言将率先应用于百度搜索,希望借此重塑信息的生成和呈现方式。除了提供更好的搜索和答案,届时还会提供全新的交互和聊天体验,以及独特的生成内容来丰富内容生态与供给。

AI写作应用场景丰富。

AI 写作应用可分为结构化写作(如新闻播报等,具有较强的规律性)和非结构化写作(如剧情写作、营销文本等,需要一定个性和创意)。在结构化写作方面,AI 写作支持文本自动生成、辅助成稿、句子补写、文本校对等功能。一个人完成一篇新闻稿大概需要 7-8 个小时,如果通过 AI 根据关键词自动生成并由人工进行校对和修改,仅需要 1-2 个小时,大幅提升工作效率。

图8:AI写作可以大幅提升写作效率

预计2030年智能内容处理市场规模将达774亿元。

根据赛迪顾问报告,智能内容处理市场在智能检校、内容创作、内容审核、机器翻译等领域持续取得突破,AI技术在涉及重要信息抽取和语言生成的领域迎来高速发展。预计到 2030 年智能内容处理市场规模将达 774 亿元,2022-2030 年均复合增长率达 28.3%。

资料来源:赛迪顾问

市场对于AI写作的可靠性存在担忧。

ChatGPT 在写论文、写稿件等方面表现亮眼,ChatGPT 的火热引发了大众对于 AI 写作的关注。由于 ChatGPT 存在数据来源不真实、编造信息等情况,引发市场担忧。如花旗、高盛等公司限制员工使用 ChatGPT,部分高校和学术期刊禁止使用 ChatGPT 写论文。

资料来源:Nature官网

细分场景的专业AI写作产品仍具有广阔应用场景。

ChatGPT 是面向通用场景的聊天 AI,训练数据主要来自互联网公开信息,在专业领域应用存在局限。在数据源方面,细分场景的专业 AI 写作产品相比 ChatGPT 类通用 AI 聊天机器人具备更强的专业性和可靠性,仍具有广阔应用前景。比如金山办公的 WPS 智能写作,明确表示数据源于权威媒体及政府公开网站;拓尔思的机器写稿,已应用于经济日报、浙江日报、暨南大学等专业应用场景。

资料来源:拓尔思公众号

AI 对话是指使用自然语言处理 (NLP) 来帮助用户通过文本、图形或语音与Web 服务或应用进行交互。对话式 AI 的定位和功能包括:

  • 替代人类完成大量重复性、规则性对话任务,比如 FAQ 机器人,经过训练后,可以根据预先设定与用户沟通,可广泛应用于客服、营销、通知等场景。
  • 作为个人虚拟助理,响应用户请求,比如苹果的 Siri、微软的 Cortana 等,为用户提供优质对话体验和服务质效。AI 对话产品下游应用市场广阔。Gartner 认为,85%的客户与企业交互无需人工参与,因此 AI 对话产品的典型应用场景为金融、互联网、运营商、政务等拥有大量C 端用户群体的行业。根据艾瑞咨询数据,目前金融领域的头部银行与互联网企业走在前列,已经开始实现由客服场景到营销场景过渡;金融领域的保险、证券公司,以及运营商和政务领域,大多仍处于对话式 AI 产品的替代与辅助的升级进程中,预计 2026 年金融、互联网、运营商细分市场规模分别为 30、27、19 亿元。
资料来源:艾瑞咨询

ChatGPT 将对话 AI 提升至新的高度。

2022 年 12 月,OpenAI 推出 AI 聊天机器人 ChatGPT,目前 ChatGPT 已经通过 SAT 考试、商学院考试、美国律师资格、注册会计师、医师资格等高难度考试,IQ 测试达 83,已经在多项测试中超过人类,具备取代无意义重复性工作的能力,在专业领域也具有辅助决策的潜力,将对话 AI 提升至新的高度,未来应用空间广阔。

资料来源:LifeArchitect.ai 网站

随着需求的持续增长,机器翻译市场快速发展。

根据谷歌披露,在 2013 年,每天使用谷歌翻译的用户就达到 2 亿人。根据 Global Market Insights 数据,2021 年全球机器翻译市场规模为 8 亿美元,预计 2030 年超 75 亿美元,2022-2030 年复合增速达 30%。

资料来源:LifeArchitect.ai 网站
资料来源:seo.ai 网站

机器翻译在广义理解层面仍面临挑战,ChatGPT 的翻译表现惊艳。

谷歌翻译和DeepL 均采用基于深度学习和神经网络的神经机器翻译(NMT)技术,使翻译结果更接近人类语言, 基本原理是经过数据训练后,实现两种语言的匹配,在广义理解方面仍面临挑战。ChatGPT 则为预训练语言大模型,通过大量的语料训练和人工标注后,对自然语言具有更强的理解能力。

如翻译“我现在有点方”,大部分翻译引擎会翻译为“I am little s【【微信】】”,ChatGPT 则具备理解关键词的能力,可以进行准确翻译。在盘古智库的翻译测试中,ChatGPT 也准确地理解了字面意思,并且可以用流畅的中文表达了翻译内容。在大模型、大数据和高算力的支持下,ChatGPT 翻译表现在部分情况下已优于专业翻译工具 DeepL 和谷歌翻译。

资料来源:火山翻译公众号 资料来源:盘古智库公众号

AI 作画是多模态技术的应用。

多模态技术是指将图像、声音、文字等多类型内容融合学习,比如将“人”这一文本与人的图片联系在一起。CLIP 等跨模态图文模型的出现,打通了文本和图形域,让文字输入实现 AI 作画成为可能。从单模态向多模态的发展,丰富了 AIGC 的内容,使 AIGC 应用更具有通用性。

资料来源:6pen 公众号

AI 作画可解决视觉内容创作门槛高、耗时长的痛点。

除文字外,图像也是 AIGC应用的重要方向。视觉内容创作的制作流程复杂,往往需要专业软件,具有较高的学习成本和门槛。AI 作画通过输入关键词自动生成图像,可以低成本、高效率创作,降低普通用户的创作门槛、提升专业用户创作效率,对于内容创作的价值凸显。

AI 作画目前主要面向 C 端用户,收费模式相对确定。

从用户群体来看,根据6pen 对国内 AI 作画用户的调查统计,56%的用户用于自己欣赏或分享给朋友,23%的用户会发布在社交网络媒体以增加粉丝关注。

从收费模式来看,目前 AI 作画产品已有相对确定的收费模式,主要采用按量收费或月度订阅的收费方式。

资料来源:6pen、开源证券研究所

根据 6pen 预测,未来五年 10%-30%的图片内容将由 AI 参与生成,预计 2027年市场规模有望超过 600 亿,应用空间广阔。

资料来源:6pen 公众号

OpenAI、百度等均已推出 AI 作画产品:

OpenAI :DALL・E 是 OpenAI 推出的 AI 作画产品,由 120 亿参数版本的 GPT-3模型经过 4 亿对图像和文本训练而来,用户输入关键词即可生成对应图片,如“一个写实风格的骑马宇航员”。

2022 年 4 月,OpenAI 发布第二代产品 DALL・E 2,分辨率较第一代产品提升 4 倍,提升了文字与图片的匹配效果。2022 年 11 月,OpenAI对外开放 DALL・E 的 API 接口,并且开启商业化运营,根据分辨率的不同,每张收费价格为 0.016-0.02 美元。

资料来源:OpenAI 官网

百度:文心一格是百度推出的基于文心大模型能力的 AI 艺术和创意辅助平台,输入关键词即可生成画作。文心一格基于知识的 Prompt 学习,对用户输入的文字,通过自动创意规划,能够大幅提升易用性,降低内容生产成本。目前,文心一格产品已经对外发布使用,大众用户均可使用,此外也参与了一些重要场合的合作共创。

资料来源:飞桨 PaddlePaddle 公众号

2.6、 AI 视频:下游需求旺盛,应用潜力大

AI 技术持续发展,已应用于视频制作的多个环节。

视频制作环节包括前期准备(文案、场景、设备、演员等)、拍摄和后期处理(剪辑、字幕、特效、封面等)等。多模态 AI 技术的持续发展,已经可以辅助完成视频生成、替换、剪辑等多项任务。

资料来源:量子位智库

AI 视频下游需求旺盛。

比如短视频领域,抖音的剪映、快手的快影、百度的百家号、【【微信】】 的必剪都支持根据文案,一键拼接图片和视频素材并同步生成字幕和配音,大幅降低视频制作成本。此外,画质较差的老视频也能通过 AI 增强软件提升视频画质和分辨率。

资料来源:新榜公众号 资料来源:【【微信】】 官网

AI 视频未来拥有广阔应用前景。

如 Synthesia 公司,以 100 余个真人作为演员,用户可通过文字描述自动生成带有“真人“表演的视频,省去拍摄和录音步骤,大幅提升视频制作效率,可广泛应用于教育、培训、解说等场景,已在路透、BBC 等4 万家公司落地,应用前景广阔。

资料来源:Synthesia 官网

文章来源:华安证券


ChatGPT由来


ChatGPT 国内趋势

在国际学术界看来,ChatGPT / GPT-3.5 是一种划时代的产物

它与之前常见的语言模型 (Bert/ Bart/ T5) 的区别,几乎是导弹与弓箭的区别,一定要引起最高程度的重视

国际上的主流学术机构 (如斯坦福大学,伯克利加州大学) 和主流业界研究院(如谷歌大脑,微软研究院)都已经全面拥抱大模型

国内的技术水准,学术视野,治学理念和国际前沿的差距似乎并没有减少,反而正在扩大

如果现状持续下去,极有可能出现技术断代

2020 版初代 GPT-3 与大规模预训练

初代GPT-3展示了三个重要能力:

  1. 语言生成:遵循提示词(prompt),然后生成补全提示词的句子
  2. 上下文学习 (in-context learning): 遵循给定任务的几个示例,然后为新的测试用例生成解决方案
  3. 世界知识:包括事实性知识 (factual knowledge) 和常识 (commonsense)

以上三种能力都来自于大规模预训练

在有3000亿单词的语料上预训练拥有1750亿参数的模型

训练语料的60%来自于 2016 - 2019 的 C4

22% 来自于 WebText2

16% 来自于Books

3%来自于Wikipedia

  • 语言生成的能力来自于语言建模的训练目标
  • 世界知识来自 3000 亿单词的训练语料库
  • 模型的 1750 亿参数是为了存储知识
  • 上下文学习的能力来源及为什么上下文学习可以泛化,仍然难以溯源

在今天(2022 年 12 月)ChatGPT 的标准下,很难说初代的 GPT-3 是“智能的”

从 2020 版 GPT-3 到 2022 版 ChatGPT

GPT-3.5 的进化树

2020 年 7 月,OpenAI 发布了模型索引为的 davinci 的初代 GPT-3 论文

2021 年 7 月,Codex 的论文发布,其中初始的 Codex 是根据(可能是内部的)120 亿参数的 GPT-3 变体进行微调的

2022 年 3 月,OpenAI 发布了指令微调 (instruction tuning) 的论文,其监督微调 (super【【微信】】ng) 的部分对应了da【【微信】】和text-davinci-001

2022 年 4 月至 7 月的,OpenAI 开始对code-davinci-002模型进行 Beta 测试,也称其为 Codex

2022 年 5-6 月发布的text-davinci-002是一个基于code-davinci-002的有监督指令微调 (super【【微信】】d) 模型。在text-davinci-002上面进行指令微调很可能降低了模型的上下文学习能力,但是增强了模型的零样本能力

2022 年 11 月发布,是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003 恢复了(但仍然比code-davinci-002差)一些在text-davinci-002 中丢失的部分上下文学习能力(大概是因为它在微调的时候混入了语言建模) 并进一步改进了零样本能力(得益于RLHF)。另一方面,ChatGPT 似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力

总的来说,在 2020 - 2021 年期间,在code-davinci-002之前,OpenAI 已经投入了大量的精力通过代码训练和指令微调来增强GPT-3。当他们完成code-davinci-002时,所有的能力都已经存在了。

很可能后续的指令微调,无论是通过有监督的版本还是强化学习的版本,都会做以下事情

指令微调不会为模型注入新的能力 ―― 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级(基础的能力是通过预训练注入的)。

指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习,如text-davinci-003,有些更擅长对话,如ChatGPT

指令微调通过牺牲性能换取与人类的对齐(alignment)。OpenAI 的作者在他们的指令微调论文中称其为 “对齐税” (alignment tax)。许多论文都报道了code-davinci-002在基准测试中实现了最佳性能(但模型不一定符合人类期望)。在code-davinci-002上进行指令微调后,模型可以生成更加符合人类期待的反馈(或者说模型与人类对齐),例如:零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题。

Code-Davinci-002和 Text-Davinci-002,在代码上训练,在指令上微调

在code-davinci-002和text-davinci-002之前,有两个中间模型,分别是 da【【微信】】 和 text-davinci-001。

两者在很多方面都比上述的两个-002模型差(例如,text-davinci-001 链式思维推理能力不强)

我们关注code-davinci-002和text-davinci-002,这两兄弟是第一版的 GPT3.5 模型

一个用于代码,另一个用于文本

它们表现出了力与初代 GPT-3 不同的能力:

  1. 响应人类指令:以前,GPT-3 的输出主要训练集中常见的句子。现在的模型会针对指令 / 提示词生成更合理的答案(而不是相关但无用的句子)。

  2. 泛化到没有见过的任务:当用于调整模型的指令数量超过一定的规模时,模型就可以自动在从没见过的新指令上也能生成有效的回答。这种能力对于上线部署至关重要,因为用户总会提新的问题,模型得答得出来才行。

  3. 代码生成和代码理解:这个能力很显然,因为模型用代码训练过。

  4. 利用思维链 (chain-of-thought) 进行复杂推理:初代 GPT3 的模型思维链推理的能力很弱甚至没有。code-davinci-002 和 text-davinci-002 是两个拥有足够强的思维链推理能力的模型。思维链推理之所以重要,是因为思维链可能是解锁突现能力和超越缩放法则 (scaling laws) 的关键。

这些能力从何而来?

与之前的模型相比,两个主要区别是指令微调和代码训练。具体来说

能够响应人类指令的能力是指令微调的直接产物。

对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的,T0、Flan 和 FlanPaLM 论文进一步证明了这一点

使用思维链进行复杂推理的能力很可能是代码训练的一个神奇的副产物。

对此,我们有以下的事实作为一些支持:

最初的 GPT-3 没有接受过代码训练,它不能做思维链。

text-davinci-001 模型,虽然经过了指令微调

但第一版思维链论文报告说,它的它思维链推理的能力非常弱 ―― 所以指令微调可能不是思维链存在的原因

代码训练才是模型能做思维链推理的最可能原因。

PaLM 有 5% 的代码训练数据,可以做思维链。

Codex论文中的代码数据量为 159G ,大约是初代 GPT-3 5700 亿训练数据的28%

code-davinci-002 及其后续变体可以做思维链推理。 在 HELM 测试中,Liang et al. (2022) 对不同模型进行了大规模评估

他们发现了针对代码训练的模型具有很强的语言推理能力,包括 120亿参数的code-cushman-001.。

我们在 AI2 的工作也表明,当配备复杂的思维链时࿰【【微信】】 在 GSM8K 等重要数学基准上是目前表现最好的模型

直觉来说,面向过程的编程 (procedure-oriented programming) 跟人类逐步解决任务的过程很类似,面向对象编程 (object-oriented programming) 跟人类将复杂任务分解为多个简单任务的过程很类似。

以上所有观察结果都是代码与推理能力 / 思维链之间的相关性。

代码和推理能力 / 思维链之间的这种相关性对研究社区来说是一个非常有趣的问题,但目前仍未得到很好的理解。

然而,仍然没有确凿的证据表明代码训练就是CoT和复杂推理的原因。 思维链的来源仍然是一个开放性的研究问题。

此外, 代码训练另一个可能的副产品是长距离依赖

正如Peter Liu所指出:“语言中的下个词语预测通常是非常局部的,而代码通常需要更长的依赖关系来做一些事情,比如前后括号的匹配或引用远处的函数定义”

这里我想进一步补充的是:由于面向对象编程中的类继承,代码也可能有助于模型建立编码层次结构的能力

我们将对这一假设的检验留给未来的工作

另外还要注意一些细节差异:

text-davinci-002 与 code-davinci-002

Code-davinci-002 是基础模型,text-davinci-002 是指令微调 code-davinci-002 的产物(见 OpenAI 的文档)。它在以下数据上作了微调: (a)人工标注的指令和期待的输出; (b)由人工标注者选择的模型输出。

当有上下文示例 (in-context example) 的时候࿰【【微信】】 更擅长上下文学习;当没有上下文示例 / 零样本的时候, text-davinci-002 在零样本任务完成方面表现更好

从这个意义上说,text-davinci-002 更符合人类的期待(因为对一个任务写上下文示例可能会比较麻烦)。

OpenAI 不太可能故意牺牲了上下文学习的能力换取零样本能力 ―― 上下文学习能力的降低更多是指令学习的一个副作用,OpenAI 管这叫对齐税。

001 模型(code-cushman-001 和 text-davinci-001)v.s. 002 模型(code-davinci-002 和 text-davinci-002)

001 模型主要是为了做纯代码 / 纯文本任务;

002 模型则深度融合了代码训练和指令微调,代码和文本都行。

Code-davinci-002 可能是第一个深度融合了代码训练和指令微调的模型

证据有:code-cushman-001 可以进行推理但在纯文本上表现不佳,text-davinci-001 在纯文本上表现不错但在推理上不大行

code-davinci-002 则可以同时做到这两点。

这些能力是在预训练之后已经存在还是在之后通过微调注入?

在这个阶段,我们已经确定了指令微调和代码训练的关键作用

一个重要的问题是如何进一步分析代码训练和指令微调的影响?

具体来说:上述三种能力是否已经存在于初代的GPT-3中,只是通过指令和代码训练触发 / 解锁?

或者这些能力在初代的 GPT-3 中并不存在,是通过指令和代码训练注入?

如果答案已经在初代的 GPT-3 中,那么这些能力也应该在 OPT 中

因此,要复现这些能力,或许可以直接通过指令和代码调整 OPT

但是࿰【【微信】】 也可能不是基于最初的 GPT-3 davinci,而是基于比初代 GPT-3 更大的模型

如果是这种情况,可能就没办法通过调整 OPT 来复现了

研究社区需要进一步弄清楚 OpenAI 训练了什么样的模型作为 code-davinci-002 的基础模型。

我们有以下的假设和证据:

code-davinci-002的基础模型可能不是初代GPT-3 davinci 模型。以下是证据:

初代的GPT-3在数据集 C4 2016 - 2019 上训练,而 code-davinci-002 训练集则在延长到2021年才结束

因此 code-davinci-002 有可能在 C4 的 2019-2021 版本上训练

初代的 GPT-3 有一个大小为 2048 个词的上下文窗口

code-davinci-002 的上下文窗口则为 8192

GPT 系列使用绝对位置嵌入 (absolute positional embedding),直接对绝对位置嵌入进行外推而不经过训练是比较难的,并且会严重损害模型的性能(参考 Press et al., 2022)

如果 code-davinci-002 是基于初代GPT-3,那OpenAI 是如何扩展上下文窗口的?

另一方面,无论基础模型是初代的 GPT-3 还是后来训练的模型, 遵循指令和零样本泛化的能力都可能已经存在于基础模型中,后来才通过指令微调来解锁 (而不是注入)

这主要是因为 OpenAI 的论文报告的指令数据量大小只有 77K,比预训练数据少了几个数量级。

其他指令微调论文进一步证明了数据集大小对模型性能的对比

例如 Chung et al. (2022) 的工作中, Flan-PaLM 的指令微调仅为预训练计算的 0.4%。一般来说,指令数据会显著少于预训练数据。

然而 ,模型的复杂推理能力可能是在预训练阶段通过代码数据注入

代码数据集的规模与上述指令微调的情况不同

这里的代码数据量足够大,可以占据训练数据的重要部分(例如,PaLM 有 8% 的代码训练数据)

如上所述,在 code-davinci-002 之前的模型 text-davinci-001 大概没有在代码数据上面微调过,所以它的推理 / 思维链能力是非常差的

正如第一版思维链论文中所报告的那样,有时甚至比参数量更小的 code-cushman-001 还差

区分代码训练和指令微调效果的最好方法可能是比较 code-cushman-001、T5 和 FlanT5

因为它们具有相似的模型大小(110亿 和 120亿),相似的训练数据集 (C4),它们最大的区别就是有没有在代码上训练过 / 有没有做过指令微调

text-davinci-003 和 ChatGPT,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 的威力

在当前阶段(2022 年 12 月), text-davinci-002、text-davinci-003 和 ChatGPT之间几乎没有严格的统计上的比较 ,主要是因为

text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月

ChatGPT 不能通过 OpenAI API 被调用,所以想要在标准基准上测试它很麻烦

所以在这些模型之间的比较更多是基于研究社区的集体经验 (统计上不是很严格)

不过,我们相信初步的描述性比较仍然可以揭示模型的机制。

我们首先注意到以下 text-davinci-002,text-davinci-003 和 ChatGPT 之间的比较:

所有三个模型都经过指令微调

text-davinci-002 是一个经过监督学习指令微调 (super【【微信】】ng) 的模型

text-davinci-003 和 ChatGPT 是基于人类反馈的强化学习的指令微调 (Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。这是它们之间最显着的区别

这意味着大多数新模型的行为都是 RLHF 的产物

那么让我们看看 RLHF 触发的能力:

详实的回应:text-davinci-003 的生成通常比 text-davinci-002长。ChatGPT 的回应则更加冗长,以至于用户必须明确要求“用一句话回答我”,才能得到更加简洁的回答。这是 RLHF 的直接产物

公正的回应:ChatGPT 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答。这也是RLHF的产物

拒绝不当问题:这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分

拒绝其知识范围之外的问题:例如,拒绝在2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过

这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内

有两件事情值得注意:

所有的能力都是模型本来就有的, 而不是通过RLHF 注入的

RLHF 的作用是触发 / 解锁突现能力

这个论点主要来自于数据量大小的比较:因为与预训练的数据量相比,RLHF 占用的计算量 / 数据量要少得多

模型知道它不知道什么不是通过编写规则来实现的, 而是通过RLHF解锁的。这是一个非常令人惊讶的发现,因为 RLHF 的最初目标是让模型生成复合人类期望的回答,这更多是让模型生成安全的句子,而不是让模型知道它不知道的内容。 幕后发生的事情可能是:

ChatGPT:通过牺牲上下文学习的能力换取建模对话历史的能力。这是一个基于经验的观测结果,因为 ChatGPT 似乎不像 text-davinci-003 那样受到上下文演示的强烈影响。

text-davinci-003:恢复了 text-davinci-002 所牺牲的上下文学习能力, 提高零样本的能力。根据instructGPT的论文,这是来自于强化学习调整阶段混入了语言建模的目标(而不是 RLHF 本身)。

我们可以得出结论:

语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练(davinci)

存储大量知识的能力来自 1750 亿的参数量。

遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量(Da【【微信】】)

执行复杂推理的能力很可能来自于代码训练(code-davinci-002)

生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说:

如果是监督学习版,得到的模型是text-davinci-002

如果是强化学习版 (RLHF) ,得到的模型是text-davinci-003

无论是有监督还是 RLHF ,模型在很多任务的性能都无法超过 code-davinci-002 ,这种因为对齐而造成性能衰退的现象叫做对齐税。

对话能力也来自于 RLHF(ChatGPT),具体来说它牺牲了上下文学习的能力,来换取:

建模对话历史

增加对话信息量

拒绝模型知识范围之外的问题

GPT-3.5 目前不能做什么

虽然GPT-3.5是自然语言处理研究中的重要一步,但它并没有完全包含许多研究人员(包括 AI2)设想的所有理想属性

以下是GPT-3.5不具备的某些重要属性:

实时改写模型的信念:当模型表达对某事的信念时,如果该信念是错误的,我们可能很难纠正它:

在自然语言处理的文献中, “推理” 一词的定义很多时候不太明确。但如果我们从模糊性的角度来看,例如一些问题 (a) 非常模棱两可,没有

推理;(b) 有点儿逻辑在里面,但有些地方也可以模糊;? 非常严谨,不能有任何歧义。那么,

模型可以很好地进行 (b) 类的带模糊性的推理,例子