庆云古诗词

庆云古诗词

知识付费产品市场前景与预测 2019-2025年中国知识付费行业市场

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

知识付费领域市场现状,知识付费行业发展趋势,知识付费行业现状,知识付费行业发展现状

  2020年对知识付费行业而言是特别的一年。因全球范围内出现疫情,人们普遍宅在家中,借助网络进行学习和工作的方式被迅速普及。从经营模式、技术变革等角度来看,围绕“流量变现”的探索变得更积极和多元。知识付费行业出现许多颠覆性变化,并迎来爆发性增长,2020-2022年可谓“变革的三年”。

  iiMedia Research(艾媒咨询)数据显示,2022年中国知识付费市场规模达1126.5亿元,较2015年增长约70倍,预计2025年市场规模将达2808.8亿元。

  随着疫情形势持续好转,知识付费的“居家红利”或将逐渐消退,但三年来用户的付费求知和在线学习的习惯已经养成。据iiMedia Research(艾媒咨询)数据显示,预计2023年知识付费用户规模将突破5.7亿人,知识付费行业有望借着这一市场基础进入稳定的持续发展阶段。2025年,知识付费用户规模有望达到6.4亿元。

  从知识付费内容的载体来看,传统音频类知识付费内容的用户和流量已经式微并普遍遭遇瓶颈。得益于短视频和直播的流行,信息流推荐和直播间带货等场景下的视频与图文类知识内容异军突起,迅速成为消费主流。

  2022年,短视频类付费内容学习人次占比75.7%,直播类、图文类付费内容则分别占比25.6%、22.0%。音频类付费内容跌至第四位,仅占比13.2%。2023年,尽管知识付费在线消费增速可能放缓,但线下知识付费市场有望迎来新转机。

  除内容载体外,知识付费行业的供给端和消费端同样在这三年中呈现新变化。

  在内容供给端,“超级IP退潮、平民IP崛起”的特点更加显著。罗辑思维、樊登读书、吴晓波频道、混沌学园这些超级IP在过去几年中,通过公众号、视频平台、独立APP、跨年演说将高频曝光与付费模式相结合,把个人IP的影响边界和变现效率扩展到极限。对超级IP的过度依赖,以及超级IP的过度透支所引发的问题越发显著。新产品对用户的长期吸引力不足,整个行业面临着内容同质化、付费产品复购率低等问题。

  取而代之的是平民IP的崛起。如果说在2016年到2019年,从事知识付费领域的人都是超级IP和行业精英,入局门槛极高。那么,在付费专栏、信息流推荐等技术变革的推波助澜下,2020年至今则变成了全民皆师的局面,每一位有知识、有技能的创作者都有机会成为知识付费的参与者。

  2020年到2022年,百度、今日头条的付费专栏相继上线,越来越多有一技之长的普通人参与到知识付费行业中。传统知识付费平台主要和名家、KOL签约,给数百万的保底费,然后通过平台再向用户付费获取收益。而百度、今日头条从生态建设出发,为创作者提供了一整套的基于付费内容的变现工具和方案。

  在内容消费端,35岁以上的用户逐渐成为知识消费的中坚人群。同比其他年龄区间,他们对线上消费的意愿同比增长最快。从内容行业的消费市场来看,中坚人群不仅规模大且消费能力强,日益增长的消费意愿也代表着在这一群体中仍存潜力巨大的红利空间。因此,做好这一部分中坚人群的承接成为业界的潜在价值增长机会。

  此外,iiMedia Research(艾媒咨询)通过调研当下的行业潮流,分别从产品形态、内容建设、经营模式上总结出知识付费行业三大趋势。

  趋势一:

  产品形态:付费订阅逐渐崭露头角

  在全球的虚拟服务和内容消费中,订阅制逐渐成为主流消费形态之一,各类应用商店的App服务开始从买断制转为订阅制。

  内容付费的商业模式近年来也逐渐向订阅制倾斜,特别是传统报刊杂志。2011年3月《纽约时报》付费墙上线,据公司财报显示,2019~2021年,《纽约时报》的广告收入占比分别为29%、22%、24%,而订阅收入分别达到60%、67%、66%。

  其实,早在疫情前期,《纽约时报》的订阅收入就已远超广告。国内具有代表性的案例则是财新。财新自2017年底全面启动新闻付费阅读,推出中文订阅产品“财新通”,金融数据资讯产品“数据通”、英文内容产品“英文通”等,2022年7月,财新付费订阅用户攀升至85万,位居全球第九,较2021年上半年增长了21%。

  除传统媒体的付费订阅制转型之外,自媒体创作与知识付费的订阅制探索也涌现出代表案例。

  美国的Substack是一家为个人创作者提供Newsletter的分发平台。而所谓的Newsletter是将信息由发送者邮箱直接送至订阅者邮箱,并能实现一对多分发的模式。创作者在Substack上可以将写作、发布和营收一体化,快捷的将个人的Newsletter 品牌建立起来、聚集读者,并通过付费订阅实现收入。

  随着像Sport Illustrated、Deadspin和SB Nation等体育出版物的衰落,再恰逢新冠疫情爆发,继2019年起就有大量体育记者转向Substack上进行写作。如今的Substack上的作者来源广泛,除一些已经离开媒体圈的前记者,还包括行业专家、小说家、漫画家、音乐人、大学教授、厨师等。作者的多元性带来了内容的多样性,在Substack上用户几乎可以看到各个不同类别的信息。值得一提的是Substack不仅仅将形式局限在传统的Newsletter上,平台上也存在漫画、视频、音乐、歌单、课程等不同类型的内容。

  具有众筹色彩的艺术家平台Patreon 也很有代表性。艺术创作者可以在平台上将作品直接销售给粉丝,平台的创作者包括音乐人、播客、Youtube博主和游戏开发者等。Patreon会为创作者建立订阅页面,粉丝可以支付不同等级的金额来换取不同的内容和激励措施。Patreon的众筹模式为会员订阅、小额赞助制,粉丝关注创作者,并每月支付10美元的订阅费,就可以提前或是独家享有创作者的内容。而Patreon会根据会员方案的不同,从创作者的收入中抽取5%、8%或是12%的手续费。这个模式让创立10年的Patreon月活接近一亿人,一年的创作者总收入预估有10亿美元。

  在国内,百度付费业务团队于2022年推出“付费订阅”功能,帮助百家号创作者在运营专栏、训练营的基础上,发展出高潜力的新增长曲线。

  付费订阅成为百家号创作者承接百度APP海量用户,将其转化为付费用户的关键一环。特别是按月起订的订阅模式,可以有效把免费观望用户转化成付费价值用户。

  百度付费订阅经过半年多的迭代,体验愈加完善。不仅能提供丰富的内容形态,还支持付费图文、视频、动态的精准推送,有效释放创作者的创作天赋与热情,把精力倾斜在内容上而不是过度为流量和获客恐慌。连续包月、首月优惠、买月送周等多种激励模式,对提升作者稳定变现颇有助益。

  订阅制重新定义了创作者与粉丝的连接方式――粉丝不再是买完即走,粉丝与作者签订了一个为期1个月~1年的陪伴关系,这个全新的关系模式改变了用户消费专栏之后完播率不稳定、续费率不确定的窘境。

  趋势二:

  内容建设:泛娱乐领域探索积极

  从内容建设上看,知识付费的创作多年来一直围绕在“泛知识”领域深耕,并通过短视频与直播方式,产生了许多经营模式的革新。借助泛知识内容成功变现的路径,一些泛娱乐色彩的付费内容开始获得新的机会,付费故事、付费短剧是这两年较有特色的两大品类。

  故事品类异军突起

  网络文学早已是一个成熟行业,据中国社会科学院发布的《2021中国网络文学发展研究报告》数据显示,截至2021年底,我国网文市场规模已超300亿,网络文学用户总规模达到5.02亿。5.02亿网文用户也在积极带动下游文化产业,从影视、动漫、有声、短剧、文创、衍生品以及线下文旅等细分领域都被庞大的流量所刺激。

  过去涉足这一领域的企业主要是阅文集团中文在线掌阅科技等传统巨头,后来则涌入番茄、七猫、疯读、米读等新兴头部平台。传统的知识付费平台介入故事品类的案例不多,较成功的代表案例则是知乎的盐选会员和百度的付费专栏。

  知乎一直以高质量问答而闻名。过去三年,知乎故事品类异军突起,尤其是短篇故事模式,以内容的高质量、用户的超高阅读和消费成为其商业化的增长变量。2019年底,知乎发力拓展网文业务,开始从社区内外各渠道吸引创作者来到知乎创作故事内容,并为此提供变现收益。随着将故事品类纳入盐选会员,知乎也找到自身的商业化道路。很多时候,用户并不会从知乎直接购买会员,反而通过那些第一人称叙述、口语化表达、节奏快、冲突密集、随时反转的故事和小说来进行消费。

  百度付费专栏的故事品类建设也在2022年呈井喷式的爆发和成功。

  在2020年,百度付费团队发现有故事类创作者,如代表性的“每天读点故事”“深夜有情”等,均通过专栏进行故事、小说的创作和发布,获得颇丰的收益。

  基于此,百度付费团队陆续拓展了大量具有同类能力和经验的作者,批量复制“每天读点故事”的成功经验,吸引数百个故事类作者和机构入驻,形成百度专栏中的故事作者矩阵。

  百度付费专栏的内容体系中,除传统的泛知识类内容外,还包括故事类、小说类等其他泛娱乐的内容形式。这些故事品类包括大量非虚构类故事,如医生、警察、律师等职业人士的纪实职业故事创作;也有大量虚构故事创作,覆盖人文、职场、言情、科幻、悬疑、推理等多种题材

  百度创造性地把短故事与付费专栏的基建能力结合起来,算法分发的获客方式又为故事、小说类内容提供长期变现的模式。通过B、C端业务的融合,百度付费专栏已经打磨出一套十分成熟的故事内容变现体系。

  付费短剧密集布局

  过去三年,在疫情影响下,整个影视产业处于寒冬时刻。短剧作为一支独特暖流,正吸引不少平台和制作团队入场。

  公开数据显示,2021年,全网整年短剧的备案数量为398部。2022上半年,在广电总局系统进行规划备案的短剧就达2859部。政策层面也随之而动,2020年,国家广播电视总局在备案系统中,增设微短剧品类。2022年6月1日,针对网络剧、网络电影的“网络剧片发行许可证”正式发放,其中也包括了短剧。统一纳入监管,意味着短剧市场进入规范化的发展路径。

  由于短剧制作周期短、内容回本快、整体市场需求相对较大等优势,2022年开始,腾讯视频、爱奇艺、优酷、抖音、快手等长短视频平台为拉拢更多的短剧创作者,纷纷推出激励计划。

  以剧场为定位,以分账为模式成为长短视频平台不约而同的准则。爱奇艺早在2019年便针对短剧内容率先确立分账规则,要求作品时长在4-10分钟且要具有剧情推进,要以竖屏为主,单部或每季净片时长不得少于120分钟,集数不少于30集。分账金额包含会员付费分账、广告、招商三部分,实行A、B、C 三个等级,片方提交基本信息后,平台审核定级和报审,单价为5元、3元、2元每部不等。

  短剧之所以迎来爆发,主要依赖于“两低一高”的行业特点。

  两低:作者交付成本低、用户决策成本低

  各个平台在内容生产上已经步入视频化的行列,用户为高质量的电视剧内容的付费习惯已经在爱优腾等视频平台的教育下逐渐养成。相较于爱优腾的正剧,短剧所依托的是快消品式的短视频平台。它的B、C端逻辑完全不同,从制作成本、交付成本以及用户的观看和购买成本而言,短剧都非常低。

  在用户端,消费者也不需要考虑是充会员或连续包月这样的烦恼。前几十集免费观看,最后花3块钱看一个大结局。这种模式对消费者而言,决策成本可以忽略不计。特别是短视频对用户的精神和时间进行渗透下,这种低成本的交易行为开始成为一种用户习惯。

  一高:网文提供了高度成熟的供给链

  调研过程发现, 短剧用户跟互联网文学用户包括小说用户是高度重合的。而许多短剧的剧本也是来自网文IP的改编。

  经过多年发展,我国网文市场已进入移动互联阶段,当前文学IP全产业链开发模式逐渐成熟。中国社会科学院发布的《2021中国网络文学发展研究报告》显示,截至2021年底,我国网文市场规模已达358亿元,网络文学用户总规模达到5.02亿,有较大的提升空间。

  这样一个饱和、成熟的网文产业链,对短剧的发展和刺激也顺理成章。比如许多成功的短剧是以经典男频网文作参考,故事原型主要有三种――赘婿、都市战神和特种兵,而且一定要有穷人逆袭、豪门落难、重生复仇这三个必备元素。网文和短剧,这两个领域形成了一种新型“共生”模式,网文负责提供IP和故事,短剧则是将这些内容转化为视频进行输出。从当前的效果来看,双方结合产生了“1+1>2”的效果。

  基于上述背景,和长短视频平台对短剧的探索不同,在知识付费领域也涌现出对付费短剧的积极探索。短剧这类体裁不像长剧,播完的版权收入相对比较固定,它可以承载更多元化的收入。

  百度付费专栏所构建的变现逻辑,对小体量和小成本的个人创作者以及初创企业而言,提供了一种更友好的运营方式。

  对比来看,长短视频平台的短剧产销逻辑,往往是短剧创作者将剧集做成切片,在各大平台投放广告。用户点击广告后直接跳转小程序,前5~10集免费观看,后续内容则需要付费,通常是1元解锁1集或购买包月/包年会员,运营方甚至可以根据实际的投放情况,制定套餐,提振用户消费的欲望。在这种模式下,一家公司至少要储备10部短剧,成本100万元左右,每部短剧预计投放50万元的广告费用,总启动资金高达600万元,这其中还不包括小程序的制作成本。

  这背后还有一个新兴的核心岗位――投手。投手负责投放广告预算,购买尽可能精准的流量,以促成后续交易。上述模式对于许多初创企业和个人创作者而言,都属于高成本、高风险。此外,这种模式下的小程序调起率非常低。而短剧的产品形态注定了短剧消费更多的是兴趣消费,很少有人会主动唤醒小程序。这两者有着尚未调和的冲突。

  百度付费专栏的产品逻辑则具备许多天然优势。

  一方面,百度付费专栏不依赖单纯的商业流量投放,它有着独立的分发逻辑。创作者发布的每一个付费短剧章节,都可以在百度APP进行分发。只要找准选题、起好标题,就有机会获取精准的流量。这背后还有官方的策略团队不断迭代分发模型,对于那些无力进行商业投放的企业和个人创作者来说,颇具吸引力。

  另一方面,百度付费专栏本身的产品链路,包含了针对创作者的内容管理、数据分析、对账管理等,对点赞、评论、收藏、转发、购买等用户行为不需要有额外的小程序作为媒介,创作者和用户可以直接实现产销对接,不会有小程序模式下的购买折损。并且付费专栏的产品功能不断由官方平台迭代,不需要创作者维护小程序,消耗开发成本。

  趋势三:

  经营模式:知识付费向知识服务转型

  早期知识付费体现为教育、出版等形式,知识付费行业逐步迈向产业化,行业对于使用场景和互动技术的投入,高精度、易获取、多场景、强互动、易操作、重效果的知识付费形态开始出现,也让知识付费本身逐渐迈进知识服务的模式。

  对知识创作者而言,在综合性的平台上通过全链路打通创作和销售,沉淀品牌和内容价值,集“引流――传播――转化――服务”为一体,无疑是非常值得关注的营销新生态。特别“服务”作为公域流量进入私域流量的最后一环,是创作者直面用户进行后续转化的关键步骤。

  为解决知识付费创作者公域流量转化为私域流量的诉求,并提升公域流量的利用效益,百度付费业务团队在2021年8月推出新型知识付费工具“训练营”,其商业模式是通过辅导百家号创作者打造具备较高营销价值的低价体验营,在百度APP首页进行推荐分发,购买用户进入特定粉丝群后,接受作者的增值培训和深度服务。

  由专业助教通过限时优惠等营销活动进行一对一服务,达成正式营的购买转化,单价千元以上的课程转化率超10%,较单纯的分发场景购买率提升数百上千倍,大大提升了流量的整体ECPM水平。

  围绕知识付费的服务化,百度的付费训练营这两年做了许多探索。其借助训练营的模式,专门为家庭教育、心理咨询等领域提供心理健康服务,解决在生活中夫妻或者家庭存在沟通、情感、亲子等问题。经过两年多的发展,这一领域成为百度付费训练营的优势板块。

  家庭教育、心理咨询、健康养生等领域之所以适合知识付费的服务化交付,也是基于其自身的特点。

  从需求端来看,传统的心理健康服务一直游离在医保体系外。这些年,以家庭为核心的心理咨询服务及情绪健康问题愈发受到大众关注,家庭成员特别是孩子、老年人的抑郁症、焦虑症、人际关系困扰等备受重视。心理健康服务需求端的桎梏,主要来自病患对心理疾病的耻感和抵触、服务过程高度非标和成果不可测量等因素,使病患产生不信任感。

  从供给端来看,截止2021年,全国通过学会考试的心理咨询师持证者约有130万人。全国真正受薪从业、具备执业水平的心理咨询师约在5-10万人。一些心理咨询类的平台虽然入驻有数万名专业心理咨询师,但为满足平台的执业水准要求,真正活跃且能够为用户保障心理服务质量的咨询师只占部分比例。需求端的低渗透率,导致医院体系以外的心理咨询师以及非头部的咨询师较难接到足够的个案。

  在上述背景下,百度的付费训练营通过平台凑合的方式,一方面为需求端提供了更直观的家庭教育、心理咨询服务,用户可以通过观看这些创作者发布的专栏和训练营中的视频、图文等了解这些心理咨询师的专业性,同时降低对这类服务的耻感和抵触;另一方面,则通过互联网招生的方式,提升了心理咨询师的收入水平,解决接单量不够、单次价格过高等问题。一些提供家庭教育和心理咨询服务的创作者,跟随百度付费内容的官方运营制作训练营,首月即达到了月入十万元的成绩。

  未来展望:AI技术的变革与冲击

  从2019年开始,各大平台陆续借助算法推荐,平台为用户精准推送感兴趣的内容,移动端的信息传播呈现高度的个人化属性,大众传播被个性化传播所取代,传播效率进一步提升。

  知识付费的业态也开始被算法推荐所颠覆,无论多小众的内容,通过个性化的推荐系统,精准刻画付费用户和创作者画像,都可能在供需之间搭上桥梁。

  在算法推荐之后,知识付费从业者们期待另一种新兴技术再次引领行业变革。人工智能应用、语言模型成为2023年以来最火热的技术话题。

  ChatGPT,是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。

  ChatGPT除了可以通过人类自然对话方式进行交互,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。如在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等);在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。

  无独有偶,百度在2023年3月推出中国版ChatGPT――文心一言(Ernie Bot),能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。

  文心一言有五大能力,文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。百度构建了面向中文、服务应用、富含知识的多样化训练数据,对文心一言进行有监督精调,使其掌握的知识更精准,更懂中文和应用场景,并建立起人类反馈、奖励模型和策略优化之间的飞轮机制,随着真实用户的反馈越来越多,文心一言的效果会越来越好,能力越来越强。文心一言融合不同类型数据和知识,自动构造提示,包括实例、提纲、规范、知识点和思维链等,提供了丰富的参考信息,激发模型相关知识,生成高质量结果。

  对知识付费创作者而言,文心一言和ChatGPT可以写出相似于真人程度的文章,并因其在许多知识领域给出详细的回答。这将帮助其提升效率,同时也将形成机会、带来冲击。相信在未来1-2年的发展中,文心一言和ChatGPT有望成为辅助知识付费创作的新工具。

(文章来源:青岛财经网)



自动化网络空间资产测绘,螣龙安科的实践指南

网络空间资源测绘,网络空间资产探测系统,网络空间测绘系统,网络空间资产探测

不过短短数月,ChatGPT又一次爆红

全球的科技巨头们也开始“蹭热点”,关于AI新技术的发布会也都层出不穷,一时间百花齐放。

(发布产品Bard现场答错问题的)谷歌发布会、(发布AIoffice全家桶来革打工人命的)微软发布会、(展示了很多PPT和录像的)百度发布会……

前几天,英伟达GTC2023的春季发布会将这股AI热潮彻底推至新高点。

英伟达最开始被大家所熟知的,是其应用于游戏领域的出色显卡能力。1999年,英伟达就推出了全世界第一个GPU(GraphicsProcessingUnit:图形处理芯片)。

但是因为GPU优秀的图像处理及大型矩阵运算能力,现在也被广泛地应用于深度学习和人工智能(AI)方面――它作为ChatGPT运作的“心脏”,为其提供了超强算力支撑。

“TheiPhonemomentofAIhasstarted.”

这句话在一个多小时的发布会中被英伟达CEO黄仁勋强调了三次。

这场发布会,几乎完全聚焦于人工智能。

发布内容从计算光刻、芯片、DGX超级计算机、DGXCloud云服务,一直聊到了AIFoundations平台等。

从基础设施到产业应用布局,英伟达彻底把握了AI时代的算力脉门,所有AI相关的企业,在软硬件这一块,都要向英伟达交入场费。

这场发布会上,最受瞩目的莫过于是集成英伟达核心技术的全新GPU推理矩阵(inferencelineup)。

它包括了4种不同的配置:

-GraceHopper(超级芯片)

-NvidiaH100NVL(用于部署ChatGPT类的大语言模型)

-N【【微信】】(用于制作AI视频)

-N【【微信】】0(用于2D/3D图像生成)

在一一介绍各芯片的功效时,老黄也花了挺大篇幅在芯片升级对于大语言模型类的系统算力提升上。

其中,GraceHopper和NvidiaH100NVL,都是为大语言模型(ChatGPT就是大语言模型的一种应用)量身打造的。

大语言模型为什么会对GPU有特殊需求?

GPT类大语言模型的升级,需要更为庞大的训练集。

2018年,GPT初代训练参数量为1.2亿个,训练数据规模是5GB

2019年,GPT-2训练参数量为15亿个,训练数据规模是40GB

2020年,GPT-3训练参数量为1750亿个,训练数据规模是45TB

从上面的信息就能明显看出:

第二代模型较第一代的训练参数增长超10倍,训练数据规模增长近10倍

第三代模型较第二代的训练参数增长超100倍,训练数据规模则增长超1000倍

每次仅仅用了一年的时间。

上周最新版的GPT-4,网传其训练参数已经达到了3000亿。

在不久的未来,模型的训练参数甚至有可能迈入万亿级别,这就对其模型的底层硬件提出了更高要求。

在这次发布会之前,性能最强大GPU是英伟达的A100(特斯拉的自动驾驶也是用的它),随着人工智能的不断发展,硬件和成本已经成为嗜需突破的瓶颈。

本次发布的GraceHopper和NvidiaH100NVL,就是在解决这一问题。

GraceHopper,由GraceCPU和HopperGPU连接而成,拥有一个900GB/秒的高速接口。两者的超强结合,能够部署50亿-2000亿参数级别的任何大语言模型

NvidiaH100NVL,基于Hopper,由两个94GB的HBM3内存的GPU共同组成,专为LLM设计,采用了Transformer(我们后面会讲到)加速解决方案。

相比于之前的A100,H100NVL实现了“更快更强”。

一台搭载四对H100和双NVLINK的标准服务器能将现有使用A100的服务器速度提升10倍

也就是说,对于现在的ChatGPT的训练速度可以快10倍,并且还可以将处理成本降低一个数量级。原本10天的训练周期可以快速缩短到一天。

GraceHopper和NvidiaH100NVL,充分满足了大语言模型对于内存和算力方面的需求。

一般而言,8个性能最好的GPU(A100)就可以带动英伟达的超级计算机DGX。

而训练出一个ChatGPT,硬件层面则需要数以万计的GPU。

这就是为什么GPT在如此庞大的训练集下,保持高速算力的同时,还能不崩的原因之一:用最先进最前沿的硬件搭建起来的稳定架构。

“OpenAI在训练模型时所需要的云计算基础设施规模,是当时业内前所未有的。网络GPU集群的规模呈指数级增长,也超过了业内任何人试图构建的程度。”

微软负责战略合作伙伴关系的高管PhilWaymouth在本月微软发布的官博中如此表示。

目前ChatGPT所使用的A100,价位在10000-15000美元,数万A100的堆叠,背后是数亿美元打底的巨额财力支撑。

这还不算每天的运维成本。

此前,据美国科技博客Techcrunch报道,运行ChatGPT的成本约为每个月300万美元,相当于一天烧掉10万美元。

按前段时间ChatGPT每天活跃用户100万来计算的话,ChatGPT每回答一人问题,其成本大约有一毛。

GPT-4应用于ChatGPT消息发布的当天,官网一度被挤爆,所以现在的成本可能远不止这个数额。

天价投资和运维的背后,离不开金主爸爸源源不断的财力输送。

从2019年到现在,微软前后给OpenAI投了110亿美元。

2019年第一轮10亿美元投资的时候,微软联合OpenAI打造了一台性能位居全球前五,拥有超过28.5万个CPU核心、1万个GPU、每GPU拥有400Gbps网络带宽的超级计算机――AzureAI超算平台

当然,微软投资OpenAI的效益,现在大家也都看到了。

微软运用AI成果顺利完成了一轮对自身产品线的反哺,解锁了Bing、Edge、Copilot等工具的AI功能,带来了新一代升级。

微软、英伟达,都是OpenAI的重要股东。

一个出钱,一个出基础设施。

要想再出现一个ChatGPT,没有这种深厚的资金实力和技术壁垒,可能只会是ChatPPT。

GPT能拥有如此庞大的算力,不仅仅是几乎不计成本地用顶尖硬件搭建起来的稳定架构,更要归功于它底层的深度学习模型――Transformer

什么是Transformer?

它是一种NeuralNetwork(神经网络架构)。

当年Transformer的发布,也是划时代性的。

可以说是语言基础模型的iPhonemoment也不为过。

它出现以后,能够大规模将数据“投喂”给模型的时代来临。

Why?

在Transformer问世之前,我们用来处理语言的模型主要是RNN,其最显著的特点就是顺序分析。

它相当于是语言模型的起点,通过大量的统计训练,用第一个词来猜下一个词,类似于搜索引擎中的自动补全功能。

谷歌搜索引擎的语言推荐和谷歌翻译都是用的这个原理。

RNN的特性也是其局限性,对于序列性的依赖,导致它的训练只能“循序渐进”,难以具备高效的并行计算力。

而且,它对长序列的数据处理不佳,有一个上下文的限制性,比如我刚输入18个字符串,它处理到后半程可能就开始“烧脑”,以至于能把前面处理完的数据给“忘”了。

这种特性和表现,也就导致了基于RNN的模型训练集有限,训练速度慢,模型准确率也差。

Transformer

Fromse【【微信】】ed

彻底打破了这种序列性的限制。

最早是2017年由谷歌和多伦多大学共同研发、提出的,不过它最初只是用来翻译。

光看它的工作原理架构图可能有点抽象,不太好懂。

我们可以来看一下它的运作特性来理解。

PositionalEncodings(位置编码)、Attention(权重)、Self-Attention(自权重)

这三大特性也是它区别于其他模型,看起来这么“聪明”的核心原因。

PositionalEncodings(位置编码)

Transformer通过使用内置编码,获取语句中的所有单词后在每个单词后额外加一个按其顺序排列的数字,实现大规模并行处理。

从曾经的理解词语负担转移到只需要处理数据,处理速度的指数级上升得以让它“跑得快”。

我们对于Transformer特性的理解与总结,以作参考

Attention(权重)和Self-Attention(自权重)

可以简单理解为计算机语言里对于“语言”的理解。

语言模型在输出文本时对内在逻辑和规律的“洞悉”,是需要通过大量的语料库训练而来,而不是仅靠人为设定的规则。

通过训练,它们了解到各类型单词之间的关系,以及如何尊重语法的多样性和规则,因此有了权重的文本语言往往更类人言而非词不达意的机器语言。

深度学习模型,即底层神经网络模型的运作逻辑巨变,带来了深厚影响。

从只能按顺序演进到可并行处理,可以大规模将数据“投喂”给模型的时代来临。

Transformer之后的语言模型,才能真正称之为“大”语言模型。

也是我们现在常说的,为什么数据给的越多,训练时间越长,模型会跑得越好,甚至GPT-3的1750亿量级的参数都能处理,原因之一,就在这里。

OpenAI看到了Transformer模型的划时代意义,将其运用于GPT的创造,5年来,一路背靠金主爸爸和硬件爸爸,带着GPT疯狂迭代更新,也就有了让全世界都叹为观止的AI应用:ChatGPT。

ChatGPT在全球的走红,还是因为它足够“通人性”+“好用”,让人们看到了AI商业化应用的潜力和巨大价值。

比起陷入认为AI会取代自身工作岗位的悲观氛围,我更倾向于AI是新时代的福音,会将我们从重复的脑力劳动中解放出来,释放新的创造力。

ChatGPT是人工智能科技革命的缩影。

实际上,2010年前后,以人工智能、云计算、大数据、物联网等组成元素的新一轮科技革命就已开始孵化、孕育和成长。

最简单的例子,智能汽车、新能源汽车现在已经开始逐步替代传统燃油汽车,广泛地应用生产生活。

而科技革命爆发的标志就是新一代科技成果开始广泛应用生产生活,解放生产力、发展生产力,提高全要素生产率。

宏观层面

AI已在科技、医疗、金融、图像、物流配送等各行各业的应用场景中大显身手。

微观层面

AdobeFirefly、CopilotX、Microsoft365Copilot……更自动化,更智能化,AI在一系列设计/编程/办公软件中表现不凡,

新应用的井喷式涌出,也让格子间打工人从被设计/编程/办公软件支配每一天,到只要输入指令就可以实现自动化的内容生成,即使初版不那么好,需要人工调整改稿,也是相当“省心”了。

AI或将成为人类历史上第四次里程碑式的科技革命。

我们都期待这一天。