庆云古诗词

庆云古诗词

新程序员大会(NPCon):从大模型到AGI,ChatGPT的大航海时代

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:


  AI激荡70载,身处操作系统演变的中心位置,在ChatGPT、文心一言等AIGC产品,GPT-4、Stable Diffusion、Midjourney等AI大模型的加持下,程序员现有的编程范式将会遭到怎样的冲击?面向的全新AI应用时代,开发者的思维、开发方式、工具又该做出怎样的改变?

  继“新程序员:人工智能新十年”大会探讨程序员进入下一个AI十年的准则之后,3月25日,CSDN、《新程序员》联合主办的“新程序员大会(NPCon):AIGC 与大模型技术应用峰会”于北京环球贸易中心正式拉开帷幕。

  在本次大会上午场的主论坛现场,CSDN创始人&董事长、极客帮创投创始合伙人蒋涛,创新工场AI工程院执行院长、SeedV实验室创始人王咏刚,华为云智能化软件研发首席专家王千祥,42章经创始人曲凯,在CSDN副总裁邹欣的主持下,就技术人如何利用通用人工智能、ChatGPT、AIGC、大模型、AI编程等重要话题,给出了干货满满的解答。

  GPT是人工智能时代的Windows

  在CSDN创始人&董事长、极客帮创投创始合伙人蒋涛发表的《大模型时代的新应用开发者》主题演讲中,他提出AI时代的到来,为开发者产业带来了三大红利:人人都是开发者,家家都是技术公司,万亿技术云大生态。

  据蒋涛介绍:“CSDN的最新开发者数据也证实了这一点。目前CSDN注册用户数超过4200万,去年新增了600万用户,新增用户中有60%都是大学生和高中生,高校计算机专业学生覆盖度90%,非常的年轻化。”

  事实上,技术的演进所经历的阶段宛如一个轮回,回顾2011年,全球化移动应用市场大门打开之际,掘金海外还是瞄准国内市场、专注iOS还是Android亦或者是HTML5跨平台开发等都成为开发者抉择的方向。

  12年后,开发者再次站在选择的十字路口,正如技术社区三倍速定律所彰显的那样,“一个技术要进入到真正的生态应用里,首先是在学术界被大家认可,接着进入到工程界,最后才进入大众视野。因此技术社区的动向往往能反映出未来的技术趋势”。从数据中,可以明显感知到GPT正在以前所未有的速度成为人工智能时代的Windows,AI发展也正处于iPhone 4时刻。

  而为真实呈现ChatGPT等自动化编程工具对开发者的影响,蒋涛也分享了CSDN 最新上线的AI编程测试方法。同时,在大会现场,CSDN面向所有用户群体,重磅发布了一款快速开发GPT应用工具――InsCod(【【网址】】)。

  最后,蒋涛对于想要加入这场AI浪潮的开发者建议道,首先要去学表达,学会善用Prompt;第二要学英文,因为前沿技术的英文资料更新速度更快;第三,发挥想象力,开始行动。

  学会Prompt,就能完成AI开发?

  “我发现我们这些老一代程序员今天被AI技术的发展拉到了一个和刚毕业的大学生一样的门槛上,我不认为我做了十几年的自然语言处理技术,比一个今天刚毕业的大学生使用ChatGPT、GPT开发的应用有任何优势,这是一个我非常焦虑的时代和时刻”,创新工场AI工程院执行院长,SeedV实验室创始人王咏刚在主论坛上如是说道。

  王咏刚表示,今天所有的计算机、系统都会被 AI 去重新改写,重新定义。这也引发了无数人思考:未来的程序员真的会被简化为提示词的编写员吗?然后由提示词纵 AI?是不是这样一个非常简单的范式,就可以总结未来所有的 AI 开发?

  就个人观点来看,王咏刚给出了否定的答案,其表示,“未来的 AI 开发应该是一种多范式的开发流程”。在他看来,世界上的任务天然地分为两类,一类是天生的不确定性任务,一类就是天生的确定性任务。这也让未来 AI 编程呈现出两种典型的范式:

  第一种编程范式是适用于端到端的感知类任务、创造性任务、探索性任务,它可以通过提示词得到结果。

  第二个范式是强调控制力、结果确定性、计算精准性的应用任务。在这个任务里面,我们不能放任所有的事情都交给大模型一次来解决问题,大模型可能需要通过引入插件的方式,调用非常多的后台服务。

  最后,王咏刚也分享道,“人类工程师在这个范式里被降级了,我觉得没办法,我们只能承认我的命运,我们也只能去拥抱这个时代,所以现在的我们,应该尽量少说话,早日开始行动起来。”

  AI编程的边界在何处?

  紧接着,华为云智能化软件研发首席专家王千祥在发表《AI编程:无尽的前沿》主题演讲中表示,AI编程基于GPT的代码生成取得了很大的突破。

  在王千祥看来,GPT代码生成原理主要分为两个阶段:训练阶段,关键问题在于学什么和怎么学;生成阶段,通过自然语言输入,经过线上GPT模型,然后生成代码。

  对于AI编程的边界究竟在哪里,王千祥通过GPT-4技术报告和微软研究院的报告发现,AI大模型在多数情况下超越了人类的编程能力,但是其距离顶尖程序员还有很大的差距。

  王千祥认为,AI编程肯定会超越Coding编程,因为现有的ChatGPT、GPT-4大模型工具的能力覆盖到了代码补全、翻译代码、解释代码、DeBug等多个维度。未来,这些工具必将覆盖到设计、搜索、迁移、运营等多流程中。

  同时,王千祥也希望AI编程背后的新模型可以将统计方法与规则方法(常识)融合起来,并能适时地进行反馈学习,以及通过健康的生态得到良好的发展。

  用生成式AI打通商业!

  在ChatGPT、大模型彻底改变开发者编程方式之际,大家可以用它实现出什么,站在需求的角度来看,42章经创始人曲凯带来了《生成式 AI 的商业化落地思考》的主题演讲。

  他认为,中国肯定会有自己的大模型,也可以有。因为可以把大模型这个事情定性成为一个工程问题,而不是一个技术问题,发现新大陆(000997)难,抵达新大陆实则没那么难。

  具体来说,现如今大模型主要带来了三个维度的能力与改变:

  让万物具备的常识;

  大幅降低各个领域的生产门槛;

  改变交互形式。

  在实际的落地场景和机会上,曲凯认为简单讲不外乎这三类:大模型、中间层、应用层。其中,最大的机会集中在应用层:

  最简单直接的文本和图片生成的一些东西,如营销、法律、医疗、教育、客服等这些场景。

  第二类就是垂直的2B SaaS类的机会。

  第三类是2C平台级的机会。

  最后一点是未来的个人助手。

  不过,在开发者、企业尝试过程中,曲凯也分享了可能会面临的五大壁垒,包括:自己做大模型、自己有私有化数据、用户使用过程中有数据飞轮效应、用户有网络效应、有复杂的业务流系统等。

  圆桌对话:ChatGPT 大航海时代

  在上午主论坛的圆桌对话环节,由CSDN战略合作总监闫辉主持,CSDN 创始人&董事长、极客帮创投创始合伙人蒋涛,创新工场 AI 工程院执行院长、SeedV 实验室创始人王咏刚,华为云智能化软件研发首席专家王千祥,42 章经创始人曲凯作为嘉宾的圆桌对话正式展开,五位技术专家以“ ChatGPT 大航海时代”为主题,共论 ChatGPT 开辟的新领域、新应用、新机遇。

  “我特别同意这是一个ChatGPT大航海时代,这是一个新时代的开始,如果再加一点,我觉得这不是一个在地球上的大航海时代,而是一个星际旅行的大航海时代”,创新工场 AI工程院执行院长、SeedV 实验室创始人王咏刚分享道。

  他表示,人类发现美洲之后,然后在上面去建工厂、做开发,包括美国的西部大开发,实际都是以欧洲规则来进行的。因此,这也有可能引发一些担忧,目前大家用GPT开发程序,都是在PC、移动终端上进行开发,以及遵循相关的规则。不过,再过3-5年规则有可能会发生变化。宛如在星际旅行时,到了一个星球,这个星球可能像在电影上看到了,它可能特别接近一个黑洞,它的引力场、时间、行为全都不一样了,在这个时候,如果开发者的应用开发还在按照在移动时代、PC时代那样的方式继续做,可能就不适用了,这是3-5年后可能会出现的局面。

  当谈及在开辟出大航海时代之后,ChatGPT反向会推动哪些维度进步时,CSDN创始人&董事长、极客帮创投创始合伙人蒋涛表示,GPT的能力汇集了所有的知识库,此时人类与它比拼的不是已有的知识,而是看它能否为我们产生新的知识,当然,这里新的知识并不是说让GPT写一篇科幻小说等等。更为重要的是,如果它的增量是科学发现,那么,我们现在社会的进步都是无尽的前沿。因此,他认为,未来我们可能会经历3-5年的前GPT时代,GPT会通过人类的提示等不断改进,但是5年之后,也许GPT会产生我们根本无法想象的事情,就如十几年前,众人无法想象出现在我们使用智能手机的现状。

  华为云智能化软件研发首席专家王千祥则认为,ChatGPT 中可以将不同语言之间实现无缝转换的功能,具有两面性。一方面,大航海时代的确促进了很多交流;另一方面,也导致强势文化更强,有很多弱势文化可能被压缩了。这一点在大模型方面也是类似的,包括我们在训练大模型时,有时用中文语料训练的效果不行,但带上英文的效果就好。所以,ChatGPT 到来对我们文化影响力如何,还是需要持两面看待。

  对于未来可能会创造的机遇,42章经创始人曲凯表示,“很多东西在当下是很难推出来的,就像十年前,我们很难想到现在最流行的应用是抖音之类的产品、最早的小红书只不过就是一个PDF……因此,我认为当前大家需要做的就是,先用起来,不用想那么多,还是站在用户需求的角度,看看当下的技术到底能实现什么东西,在这个过程当中再不断去调整。”

  除了对大模型技术和AI新时代开发者未来发展的思考,在本次AIGC与大模型技术应用峰会上,我们还特设了“AIGC与大模型技术应用”与“AI编程技术应用”两大论坛,以及ChatGPT应用创新营特色活动。

  分论坛1:大模型是通往AGI的必由之路吗?

  其中,在“AIGC与大模型技术应用论坛”上,五位深入大模型应用的产业界代表分别带来了他们对于AIGC和大模型的思考,以及行业多年的实践经验,深入展现国内大模型技术生态。

  首先带来演讲的是文因互联工程VP兼首席科学家宋隆T谒看来,ChatGPT的出现宣示着新的人工智能发展契机的到来。具体到金融领域,她发表了《探索新技术之大模型在金融AIGC领域的前景与应用》的主题演讲。

  “在过去一段时间内,我们主动、被动接受到了有关ChatGPT和AIGC的各类讨论,大多围绕趋势、影响等维度展开。在强监管背景下,ChatGPT在金融领域落地有哪些局限性?金融机构应该如何构建自己的优势,以应对当下发展 ?”

  在本次分享中,宋麓蛹际醴治黾俺【坝τ梅矫妫对AIGC商业化落地的可行性和路径进行探讨,从中寻找可能的业务增长点。

  此外,在宋驴蠢矗骸敖鹑诹煊虻拇竽P椭战实现,我们会成为整个历史浪潮中微小但有力的一份子。哥伦布就曾经错误地认为自己到达了印度,但他开辟的新航路依旧影响了全人类。无论这一次科技浪潮的最后能否完全实现通用人工智能(AGI),我们都已经走出了重要的一步。”

  紧接着,来自网易伏羲实验室的资深研究员,NLP研究组及多模态算法负责人张荣升,以多年在这一技术领域的积累发表了《文本及多模态预训练技术的研究与应用》的演讲,介绍了网易伏羲在大模型上的技术积累,包括文本、多模态理解和生成预训练模型的建设,同时分享了大模型在歌词辅助创作、智能对话、文字游戏、互联网搜索推荐、AI绘画等落地场景的应用。

  “ChatGPT的交互方式是大众化的,它真正理解使用者意图的能力也是革命性的。预训练模型在未来的趋势会朝多模态方向发展,大模型的使用会越来越流行。”张荣升如是表示。

  超对称技术首科学家吴恒魁则在演讲中基于“重整化理论”,对大语言模型的涌现现象建立数学框架。据他表示,超大参数语言模型遵循scaling law,即将参数和训练量扩大,能看到模型产生接近人类的逻辑和复杂推理能力,这样的现象属于复杂系统的涌现。而通过提出基于统计力学的连续相变理论来解释语言模型的涌现行为,为引入量子场论的重整化机制建立数学框架,这是他此次演讲的主要内容。

  “大模型出现人类级别的逻辑和复杂推理能力是一种涌现行为,而随着模型复杂度增加,预测下一个词的GPT模型可能遵从“连续相变”的规律出现新的涌现行为。”吴恒魁讲道。

  来自华院计算人工智能实验室资深研究员蔡华,在本场论坛发表了《让数字人更具个性和情感:ChatGPT技术的思考启示》的演讲。

  他的演讲聚焦在ChatGPT为通用语音技术带来的变革上,其中的重点便是如何能够为数字人赋予个性和情感。同时,以华院计算实施的具体实践为例,说明了对话式框架的搭建,以及如何将对话与知识融合。同时,也指出了知识图谱如何能够让对话交互变得有感情和富有个性。

  “大模型提供了更强大、更智能的交互方式,让虚拟数字人更有温度。未来的数字人将能理解他人的感受和情感,与他人进行个性化的互动。”华表示。

  最后,本场论坛主持人,句子互动创始人 &CEO,微软人工智能最具价值专家 (AI MVP)李佳芮从开发者切实应用的角度,说明了她对于ChatGPT如何从0到1的构思,从技术原理、发展背景、应用场景和prompt等多个角度,说明了未来AGI时代的开发者需要哪些思维和技能。

  “工业革命解决了‘重复体力劳动’的事情,人工智能未来解决‘重复脑力劳动’的事情。对话式人工智能已经到来,人类最终会与AI「共生」,让机器做机器擅长的事情,让人类发挥人类的特长,让人工智能拓展人类智能。”李佳芮最后总结道。

  分论坛2:AI编程的现状与未来

  另一场主题为“AI编程技术应用论坛”主要为给开发者提供更多产学研界的前沿技术和实践案例。为此,论坛邀请到五位深入AI编程的卓越开发者,分享他们技术实践。

  首先,由微软亚洲研究院高级研究工程师卢帅带来主题为《基于预训练的代码理解与生成》的讲解。他的演讲聚焦于“代码智能”,包括剖析基于人工智能技术的自动化程序理解和生成极大地提高程序开发者的生产力,如何开发出大规模通用预训练模型,并将其使用到软件开发生命周期的各个方面,包括代码补全、代码搜索、代码审查、缺陷检测及修复等方面。

  “未来AI编程的发展趋势是一方面探讨如何利用大模型来完成任务,另一方面思考如何进化它,以覆盖更广泛的智能代码场景。”卢帅如是表示。

  接着,aiXcoder联合创始人郝逸洋分享了大语言模型时代下应该如何进行代码的生成。包括如何利用LLM的技术进行代码开发辅助、代码模型和自然语言模型的区别,以及对交互式多模态LLM(如ChatGPT,GPT4)加持下的智能化软件开发的畅想。

  在他看来:“如果 AI 作为操作系统可以直接控制硬件,程序员就能解放双手去编写驱动、操作系统和软件或是研发新的硬件,这就是软件 3.0 的图景。”

  华为云PaaS技术创新LAB 技术专家申博基于华为云CodeArts Snap的实践,作了《GPT-4时代,重新思考AI编程》的分享。他的思考涉及包括生成式AI能做什么、边界在哪里,以及如何落地实现的各个方面。在他看来,我们需要重新思考AI编程,通过与现有工具的结合,软件分析及语言模型的实现,未来增强型的AI编程助手一定会出现。

  “当模型越来越大,对硬件性能要求越来越高,有可能会遇到“数据荒”的问题,我们能否让 AI 自我演进,通过自我生成数据的方式学,以达到与大数据同样的效果?未来自我创造智能是个有前途的方向。”申博表示。

  来自清华大学知识工程实验室研究助理郑勤锴则分享了关于【【淘密令】】的实践。和很多大模型是通过海外的架构和硬件进行训练不同,【【淘密令】】最大的特点是通过国产AI框架和硬件来实现训练,减少了核心技术被卡的风险。在本次报告中,郑勤锴分享了这款插件自动代码生成与预训练模型的产生背景、如何进行模型实现、【【微信】】与JetBrains IEDs插件介绍与功能,以及未来开源开发计划等方面。

  关于程序员需要提升的能力,郑勤锴认为,“在将来,程序员需要具备一些更高级的技能和思维,比如Geek(极客)思维,开发者应该更加注重这方面的培养。”

  最后,中国科学院软件研究所研究员、博士生导师王俊杰,分享了基于Pre-trained Large Language Model(LLM)的软件自动化测试的主题演讲,包括指出自动化测试仍存在哪些导致效率低下的问题,以及如何利用大规模的预训练模型来自动生成测试输入等。

  “现在的大模型可能有些时候对开发人员来说有点‘不太专业’,但对测试人员来说‘刚刚好’。”王俊杰如此表示。

  同时,随着人工智能和大数据技术的不断发展,AIGC和大模型技术已经成为了各行各业的重要发展方向。在本次AIGC与大模型技术应用峰会上,我们还特设了ChatGPT应用创新营特色活动。

  此次,我们深入探讨了大模型技术对开发者的影响与潜在的研发应用场景、未来发展趋势,也不难看出,我们正在AIGC、大模型的引领下站在AI智能感知阶段的C位,而属于AIGC、大模型的时代也才刚刚开始。

  未来,我们也期待AIGC和大模型技术将为我们带来更加智能化和高效化的工作流程、更加精准和个性化的服务、更加安全和可靠的系统,以及更加优秀和有趣的人机交互体验。

关注同花顺财经(ths518),获取更多机会


新基建风向标:关于ChatGPT,必知10件事!

新基建的七个方向,新基建分析,新基建来了,哪些领域值得关注,新基建解读

进入2023年以来,ChatGPT大火。朋友圈里充斥着关于ChatGPT的各种消息,从GPT-1到GPT 3.5,再到【【微信】】和GPT-4,从OpenAI和微软到各种ChatGPT创业和项目,仿佛一夜之间跨入了人工智能新基建时代。那么,对于普通老百姓和超级繁忙的职场人来说,都有哪些关于ChatGPT的知识点,需要掌握呢?

本质上来说,ChatGPT是一种面向NLP自然语言理解的预训练大模型。NLP自然语言理解就是让计算机理解人类的语言,而不是理解程序代码或0101二进制代码。之前,一个神经元网络程序只能解决一个NLP自然语言理解的问题或任务。因此,就需要为每一个自然语言理解问题或任务而定制一个神经元网络程序。预训练大模型的出现,改变了这一格局。

预训练大模型用一个超大规模的神经元网络表达自然语言中的通用知识,而针对每一个特定的自然语言理解问题或任务,只需要在预训练大模型的基础上进行微调/精调,就能够很好地解决相应的问题或任务,这就是预训练大模型的价值。简单理解,就是将之前的一个神经元网络拆解为预训练大模型+微调/精调方法,从而轻松适配不同的NLP任务。

对于用户来说,不需要为了自己的NLP需求,例如开发一个客服机器人,而要从头开始开发一个完整的人工智能程序,用户只需要在大模型的基础上针对本企业/行业特点进行微调/精调,即可很快获得一个适合本企业/行业的客服机器人――面向金融行业的客服机器人要加上金融行业的知识、业务和术语,面向某地区银行的客服机器人还要加上当地的知识、业务和术语,甚至文化与方言等等。

当然,预训练大模型相当于学习人类的知识,例如语言类预训练大模型就在学习人类的语言和知识,那么就跟课本知识一样有时效。ChatGPT的人类语言知识截止到2021年,也就是说ChatGPT并不具备2021年以后的人类语言知识,例如播放于2023年的电视剧《狂飙》,ChatGPT就毫不知晓。因此有网友问关于《狂飙》的知识,ChatGPT就无法回答。

众所周知,ChatGPT基于GPT-3.5,相比于GPT-1、GPT-2、GPT-3等前代大模型,ChatGPT加入了生成式AI算法,让ChatGPT对外输出能力有了质的飞跃,ChatGPT不仅具备了海量人类语言知识,也能与人类进行各种聊天和对话。因此,ChatGPT对外又以API和聊天机器人的方式提供服务,例如微软将ChatGPT嵌入到搜索引擎中成为对话机器人,OpenAI也通过互联网直接对外提供ChatGPT对话以及接入ChatGPT API。因此,ChatGPT也代表了基于ChatGPT大模型的聊天机器人、API以及相关互联网和云服务。

ChatGPT之所以大火,因为它走了生成式AI这个方向。人工智能是一个庞大的领域,其中包括了很多算法的交叉使用,基于深度神经元网络的机器学习是人工智能的一个重要方向。神经元网络算法的组成部分主要就是“参数”,所谓“参数”主要指的是每层神经元网络的节点和节点与节点之间的权重连接,当然不同神经元网络引入了不同的算法组合,也具有更多的“参数”。所谓大模型,指的就是具有百亿、千亿级参数的模型。

在人工智能处理的任务方向上,有决策式AI与生成式AI两种。在ChatGPT之前,决策式AI是主要的AI任务方向。所谓决策式AI,也就是回答选择题。无论是赢了电视问答“边缘游戏”的IBM深蓝,还是战胜了人类围棋冠军的AlphaGo,本质上都是在做“选择”,也就是DeepQA问答机器人。目前,众多的人工智能应用都属于问答机器人,包括Siri、Cortana、Alexa、小艾、小度等。

生成式AI是另一个人工智能任务方向,也就是大家所期待的“聊天”机器人。此前,很多问答机器人都被标榜为聊天机器人,但实际上都被诟病为人工“智障”。ChatGPT的出现,让人们看到了真正实现聊天机器人的可能。在ChatGPT中引入了新的AI算法,包括情景学习、思维链、自然指令学习、指示学习等,这些新算法的引入让ChatGPT走上了新道路,不仅能够与人类展开真正的对话,还能生成各种高质量的内容,例如撰写新闻稿等。

读者可能会问,为什么之前不引入这些算法。一个很重要的原因是,对于亿级参数的AI模型进行训练,是一个极耗时间和算力等成本的工作,无论是高校研究员还是企业研发人员,都面临着选择:一旦选择了一个算法方法,就只能一直在这个方向上投入下去,而切换算法或新增算法的成本和代价将非常高。

生成式AI是一个人工智能算法的方向。简单理解,生成式AI就是在已有数据和内容的基础上,产生新的数据和内容甚至是超出预期的内容。生成式AI一直是人工智能所渴望的地平线,就像众多人工智能主题相关电影一样,机器人能够自主与人类进行创造性对话,甚至代替人类进行创造性的活动,例如创作小说、歌曲、绘画等等。当然,在商业社会中,生成式AI被用于创造更具商业价值的内容,如会议纪要、撰写商业稿件、生成商用图像等。

在ChatGPT之前,也存在着其它生成式AI算法,比如面向无监督学习的生成对抗网络(GAN)就非常流行。与ChatGPT相比,GAN等代表了早期生成式AI算法。ChatGPT的出现,可以说是生成式AI的分水岭。实际上,在ChatGPT之前,还有IBM、小冰等公司分别尝试了生成式AI方向,各自推出了具有令人惊讶的生成式AI机器人,例如IBM辩论机器人Project Debater和小冰聊天机器人等。不过,根据已经披露的信息,IBM和小冰等公司采取的是不同于大规模预训练模型的算法。

ChatGPT代表的是由大规模预训练模型所驱动的生成式AI。大规模预训练模型的意义在于其通用性,也就是基于GPT的大模型所代表的通用AI能力以及存储于大模型中的人类通用知识,再加上ChatGPT的情景学习、思维链、自然指令学习等新兴算法,生成式AI就有可能进入大规模商用,并进一步从文本生成泛化到图像和视频生成等,这就是ChatGPT的意义。

这里需要提及一下由谷歌学者于2022年提出的思维链(Chain of Thoughts,COT)。简单理解,思维链就是一系列中间推理步骤,即在采用大型预训练模型进行推理任务的时候,先生成思维链,从而使得模型的推理性能获得大幅度提升。这就是众多ChatGPT令人惊艳之处之一,思维链的一大好处是无需微调模型参数,就可以显著改进模型的性能。

ChatGPT是OpenAI GPT-3.5的改进版本之一。OpenAI成立于2015年,创始人为一些科技领袖,包括特斯拉创始人埃隆・马斯克(Elon Musk)、美国创业孵化器Y Combinator总裁山姆・阿尔特曼(Sam Altman)、在线支付平台PayPal联合创始人彼得・蒂尔(Perter Thiel)等。OpenAI最初的创立宗旨是实现安全的通用人工智能,如今OpenAI的宗旨是确保通用人工智能让所有人受益。

如今,OpenAI主要有三条产品线:GPT、DALL-E和Whisper。其中,GPT是面向自然语言预训练大模型;DALL-E基于GPT-3,可以通过自然语言生成图像;Whisper是一个自动语音识别模型。最著名的当然是GPT系列产品,包括GPT、GPT-2、GPT-3、GPT-3.5/ChatGPT、GPT-4等。GPT全称为Generati【【微信】】ormer,简单理解就是生成式预训练Transformer模型。

大名鼎鼎的Transformer模型是由谷歌于2017年推出的开源机器翻译模型,后也被广泛用于各NLP领域。相比于之前流行的RNN、CNN神经网络算法,Transformer的最大优点就是实现了并行计算,特别适应以云计算为代表的分布式共享计算基础设施。谷歌当初开发Transformer的一个初衷就是为了适配谷歌Cloud TPU,因此Transformer的流行也就在情理之中了。在Transformer的基础上,涌现了大量新型算法,特别是为大模型奠定了基础。

GPT-2就是在Transformer基础之上的大模型。GPT-1为亿级参数,GPT-2为15亿级参数,GPT-3为1750亿级参数。GPT-3.5又有多个版本,包括具有13亿参数的InstructGPT、1750亿参数的ChatGPT和60亿参数的Codex(用于代码生成),以及GPT-3.5 Turbo。其中,最为著名的是InstructGPT和ChatGPT,二者还在训练数据集上有所不同。当ChatGPT大获成功后,OpenAI又将集大成的GPT-3.5 Turbo接入ChatGPT API,成本更低、速度更快、功能更全,不仅能生成对话还能生成代码。

与GPT系列不同,InstructGPT和ChatGPT引入了人类反馈,也就是基于人类反馈的增强学习。InstructGPT和ChatGPT还引入了人类数据标注员,用人工的方式对模型进行精调。这些反馈都让模型的输出结果向着人类期望的访发展,这就是ChatGPT能够惊艳全球的重要原因。GPT-4进一步实现了多模态的融合,也就是可以识别图像,然后再进行自然语言处理任务,例如给GPT-4模型一个冰箱内部图片并问GPT-4“晚上吃什么”,GPT-4就能识别冰箱内部食物并给出晚餐建议。

虽然OpenAI名为“Open”,但实际上OpenAI已经不是一家开放或开源公司了,因为大模型的训练和运维成本极为昂贵,OpenAI不得不走上了封闭式盈利公司的模式。特别是到了GPT-4,OpenAI不再公布GPT-4的模型参数数量及机理等,外界也无从得知GPT-4的更多具体细节。总体来看,OpenAI打开了AI历史的新一页,这就是预训练大模型的时代,同时OpenAI也验证了大模型的价值:涌现性,即模型越大、参数越多,就越能表现出超出人们想像的智能水平,实现模型能力的质的飞跃。

ChatGPT惊艳了全世界了,也激发了新一轮AI创业热潮。但对标ChatGPT的创业成本也极其高――高达5000万美元的“起步费”。与其说ChatGPT是一种AI软件,不如说是货真价实的新基建。对于国家来说,ChatGPT更是战略性的国家资源,甚至是国家级战略方向以及必须要投资的基建领域。在未来,ChatGPT及其后续版本,有可能成为大国之间的新竞争优势。

那么,ChatGPT究竟有多贵呢?公开的资料显示,ChatGPT的参数高达1750亿,预训练数据集高达45TB,而GPT-1的参数量为1.17亿、预训练数据量约5GB,GPT-2的参数量为15亿、预训练数据量为40GB。可见,ChatGPT是一个全面的飞跃,训练一次ChatGPT所需算力高达3640 PFlop/s-day,即假设每秒计算一千万亿次,也需要计算3640天,相应ChatGPT训练一次的费用估计高达约450万美元。

有关的测算还有: ChatGPT单月运营所需算力约 4874.4PFlop/s-day,全年则需要58.5EFlop,如果使用算力500P常规数据中心运行ChatGPT,至少需要10个这样的数据中心,按30亿元成本建设一个这样的数据中心计算,总投资高达200-300亿元;Nvidia估算,如果要训练GPT-3,用8张V100的显卡,训练时长预计要36年,如果用1024张80GB A100则可将时长缩减到1个月,成本高达1.5亿美元,NVIDIA还测试用3072张80GB A100训练 GPT,最大规模的模型参数量达到了1TB,而3072张A100卡的成本高达5亿美元;另有证券公司估算,大模型的训练成本介于200万美元至1200万美元之间,以ChatGPT月独立访客平均1300万计,对应需要3万多张A100 GPU,初始投入成本约为8亿美元,每日电费5万美元左右;OpenAI的重要投资者及战略合作伙伴微软在自己的Azure全球基础设施中,为OpenAI构建了一个庞大的GPU资源池,由上千张GPU构成。

由ChatGPT的开发和运营成本,可以看出大模型是一个极为烧钱的投资,而且在短时间内也很难看到规模化经济效益,更难达到盈亏平衡。这就是为什么很多公司都声称开发出了自己的大模型,但真正投入运营的却只有OpenAI一家(微软向OpenAI先后投资超过百亿美元)。2023年初,百度发布了中国版ChatGPT即文心一言,首批只开放给企业试用,而面向普通个人用户则预计要到2023年底开放,这在很大程度上也是成本和效益的考量。

微软是OpenAI的早期支持者之一,2019年向OpenAI投资了10亿美元,2021年再次投资20亿美元,2023年进一步承诺向OpenAI投资100亿美元,用于支持OpenAI的研发。作为人工智能云技术的坚定支持者,微软一直关注AI领域的技术进展,自身也向AI研发投入了大量资源。自OpenAI成立之初,微软就密切关注OpenAI的进展。

2019年,微软向OpenAI投资10亿美元,同时承诺为OpenAI建造一个可供大模型训练和运行的超级AI计算机。这是一项前所未有的挑战,此前也没有任何一家技术公司进行过类似的尝试。训练和运行大模型需要面向GPU的大规模并行计算,而不是已有的面向CPU的大规模并行计算。如何将成千上万张GPU卡连接在一起,完成大模型所需要的并行计算,这需要对硬件、网络和软件等多方面改造甚至是重新设计,微软率先进行了这方面的尝试。

2023年开始,微软将OpenAI技术大规模纳入到了自己的产品和服务中。2022年推出Github Copilt,2023年推出Dynamics 365 Copilot、Microsoft 365 Copilot等,直接将GPT/ChatGPT的超强人工智能体验推向了最广大的普通用户。特别是Microsoft 365 Copilot和New Bing将GPT/ChatGPT的技术嵌入到Office办公软件和Bing搜索引擎中,引起了极大的关注。微软还通过Azure智能云,向全球提供OpenAI服务,包括GPT、DALL-E等。

说到大模型,就必须提到大模型的涌现性。在GPT-1和GPT-2阶段,模型的参数还只有亿级和十亿级,业界对于模型参数越大的价值,仍然存疑。实际上,从GPT-1到GPT-4,模型本身并没有太多的变化,主要是参数规模从亿级飞跃到千亿甚至万亿级。而ChatGPT向人们展示了,千亿级超大规模模型的价值:涌现性。

所谓涌现性,就是当全部人类的知识被存储在千亿级大模型中、这些知识被动态连接起来的时候,大模型所具有的智能就显现了远超出人们预期的效果。众所周知,从GPT到ChatGPT大模型,所采用的预训练数据主要来自互联网,那么当一个超大规模AI模型学习了所有互联网数据后,这样一个AI模型的智慧程度就出现了“涌现”现象。例如,ChatGPT可以写出具有相当专业水准的商业文案、能够创作诗歌和文学作品、能够与人类进行哲学层面的对话等。在GPT-4发布后,相继有测试表明,GPT-4可以轻松通过律师资格考试、会计师考试、大学入学考试等,甚至能够达到满分或近于满分的成绩。有报道称,美国大学生用ChatGPT撰写了高质量的论文,被教授用ChatGPT反向查出来该论文为ChatGPT撰写。

ChatGPT还能够进行高质量的编程。自2022年微软推出基于GPT/ChatGPT技术的Github Copilot以来,Github上数以百万计的程序员体会了人工智能编程的高质量和高效率。前OpenAI和特斯拉AI总监Andrej Karpathy(2023年2月宣布再次加入OpenAI)在2023年初发布推特称,他现在80%的代码都是由Github Copilot自动生成。搜索引擎New Bing可以直接把一段Python代码转换为Rust代码,用户只需要在Edge浏览器中使用Bing,拷贝Python代码并输入“使用Rust语言重写这段代码”,即可自动生成高质量的Rust代码。

业界专家认为,通过同时增大计算量、数据量和模型参数规模,模型性能或许能够无上限提高,也就是将人类的知识、思考和记忆能力等都连接在一起后,就能出现进化的奇点――智慧水平无限提升。

从NLP模型到(超)大模型,模型参数量级一路飙升到百亿、千亿甚至万亿级,很多科技公司都加入到了大模型和超大模型的战备竞争中。说到“战备”,实际上是因为大模型和超大模型的训练和运营成本十分高昂,属于极为烧钱的项目,而又难以在短时间内看到明确的商业回报,以至于几乎没有一家商业公司肯向大模型和超大模型进行实际的投资。OpenAI在前期作为一家公益机构,又获得了微软的数十亿美元投资,才成就了ChatGPT。

自从谷歌推出Transformer以来,很多科技公司都基于Transfomer推出了自己的NLP(超)大模型。除了OpenAI外,还有微软推出的具有170亿参数的Turing- NLG、谷歌推出的具有1.6万亿参数的Switch-C和具有5400亿参数的PaLM以及具有4800亿参数的Bert、英伟达推出的具有5300亿参数的Magatron-Turing NLG,META发布的具有70亿、130亿、330亿和650亿参数规模的LLaMA,以及百度推出的具有2600亿参数的文心ERNIE 3.0、腾讯推出的具有万亿参数的混元NLP、阿里推出的具有270亿参数的PLUG、华为推出的具有2000亿参数的盘古语义、浪潮推出的具有2457亿参数的源1.0、复旦大学推出的具有百亿级别参数的Moss等等。

除了NLP大模型外,多家公司也推出了多模态(超)大模型,例如阿里的M6、中科院自动化所的“紫东・太初”、百度的文心、华为的盘古、智源研究院的悟道2.0、谷歌的PaLM-E、OpenAI的Clip等。所谓多模态大模型,不仅能够处理NLP自然语言理解任务,还可以处理CV视觉图像识别以及文生图、视觉-语言等跨模态任务。

ChatGPT引发了全球新一轮的AI热潮,至少引发了三个AI创业方向:超大模型预训练中文模型、互联网和软件产业重塑、AIGC(AI产生内容)爆发。

对于超大模型预训练中文模型来说,5000万美元是入场费。由于对GPU大算力的要求,因此超大模型预训练中文模型很难成为初创公司的“菜”。相反,不少大型互联网公司纷纷准备下场。百度于2023年3月推出的文心一言聊天机器人(ERNIE Bot),就是基于已有的具有2600亿参数的文心ERNIE 3.0 NLP大模型,然而李彦宏在发布会表示,文心一言要对标ChatGPT/GPT-4的门槛还是很高的,全球大厂还没有一家能够做出来。2023年3月21日,谷歌推出自己的聊天机器人Bard以对抗ChatGPT,但由于在发布时的演示中出现了错误,而导致谷歌股价大跌。

2023年2月,前美团联合创始人王慧文在朋友圈发布“人工智能宣言”,宣布自己出资5000万美元投入AI领域,寻找“业界顶级”、“狂热爱好AI”的技术人才,打造中国版OpenAI。王慧文还称,下轮融资已经有顶级VC认购2.3亿美金。随后,王兴也在朋友圈宣布以个人身份参与王慧文新AI公司的投资,并成为董事。

2023年3月,阿里前技术副总裁贾扬清在朋友圈宣布,其团队已从阿里“毕业”(离职),而贾扬清之后的方向是AI大模型底层的技术研发,包括多GPU平行计算、AI模型半自动化、无代码拼装和训练等。同样在3月,李开复发布朋友圈官宣筹建一个名为Project AI 2.0的新项目,定位为AI 2.0全新平台和AI-first生产力应用的世界级公司。

为什么ChatGPT没有诞生在中国?还有一个很重要的原因是数据。实际上,中文数据在整个互联网中的占比小,仅有5%左右,而且中文互联网数据质量也低于英文互联网。当然在另一方面,英文数据也面临着被耗尽的问题。有研究预计,在大模型时代,互联网上可用数据资源中的高质量语言数据大约在2026年耗尽,低质量语言数据大约在2050年耗尽,视觉图像数据也将在2060年耗尽。

对于互联网产业来说,ChatGPT和ChatGPT引发的AIGC正在引发新一轮互联网的进化。阿里巴巴、腾讯、字节跳动、京东、360、科大讯飞、快手、网易有道等互联网公司纷纷宣布跟进ChatGPT,好未来、寺库、小红书等二线互联网公司也在积极开展类ChatGPT应用。ChatGPT被认为是下一代互联网,也就是用户与互联网的交互形式变成自然语言对话,互联网也从一堆无序的网页变成可实时按需组织起来的动态知识库,而用户甚至可以用语音与互联网沟通,这将是前所未有的体验。更进一步,互联网还可以按用户需求自动生成有意义的图片、视频、文字,例如生成一张旅游路线图等。

从搜索引擎、社交、电商,到游戏、元宇宙、VR、AR等互联网模式,将在大模型和AIGC的爆发下全面重塑。数字工业、农业、零售、金融等数字经济产业,也将在大模型和AIGC时代获得全新生产力和出现全新的应用。软件产业更面临着全面重塑,办公软件、ERP软件、图像处理软件等,都能够与用户进行自然语言沟通。

ChatGPT的出现,让普通人的现代生产力、生活力和学习力都得到了前所未有的提升。而在ChatGPT对人类社会的全面“入侵”之下,普通人还面临着与ChatGPT争抢工作的挑战,大批能够被ChatGPT取代的岗位都面临着下岗的风险。普通人必须要学习和掌握ChatGPT,才能够在ChatGPT时代更好地生存。

首先当然是生产力的大幅提升。微软发布的一系列Copilot和New Bing已经向世界展示了,GPT/ChatGPT是如何连接知识,然后全面提升人们的工作效率、质量和工作能力。当人们进入在线会议软件的时候,可以让Copilot总结出已经讨论的内容要点,大幅提升开会的效率和效果。另外,当员工需要修改图像的时候,只需要对Photoshop说如何修改图像,Photoshop就能自动完成修改,人们再也不需要学习Photoshop了。目前,GPT/ChatGPT对于生产和办公的冲击才刚刚开始,未来的全面颠覆还远远没有到来。

更进一步,我们将真正进入人人即程序员的时代。当前,尽管有各种低代码平台,人们仍然需要了解一定的编程知识、学习一定的编程语言等。有了GPT/ChatGPT,就能通过自然语言方式自动生成代码,哪怕是普通员工也能够轻松生成高质量的应用软件和程序。

其次就是学习力和娱乐力的全面提升。GPT/ChatGPT已经引发了教育界的关注,GPT/ChatGPT在教学方面表现出的出色能力,能够向更偏远的地区和更多的人群普及教育,但也可能让很多教师面临下岗或转岗的风险,而不少学生利用GPT/ChatGPT生成的作业可以轻松通过关,甚至取得高分,也让教育的未来堪忧。在生活方面,GPT/ChatGPT可以轻松胜任各种生活中的任务,除了全面升级各种智慧语音助理、客服等外,还能够与老人聊天、与孩子谈心,帮助创作诗歌、绘画、音乐等。GPT/ChatGPT对于娱乐来说,更将带来颠覆性的改变,成为创作的高效率工具和平台。

整体来说,ChatGPT引发了全球新一轮人工智能热潮,而这一次与上次AlphaGO所引发的人工智能热潮有本质的区别――AlphaGO还仅是棋牌类游戏,而ChatGPT则引发了AI的工业化变革,不仅可能诞生通用型AI,还将整个AI技术体系分为上游的大模型+下游的各类应用,从而引发各类AI应用的全面爆发。ChatGPT把AI深入普及到人类社会的方方面面,可以说打开了人类现代社会发展史上的崭新一页。以ChatGPT为代表的大模型,将成为人类社会的新基建,让各种数据中心、智算中心等真正成为现代社会必不可少的基础设施。(文/宁川)