庆云古诗词

庆云古诗词

重磅!全球第 一个基于OpenAI的建站机器人FppGPT重磅发布

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

这八个全球第一,全世界第,2020全球第一,这八个“全球第一”美国当之无愧

3月28日,FunPinPin的视频号发布了一则关于自动化建站FppGPT的操作录屏。录屏中显示,企业用户仅需提供基本企业信息,便可在一分钟之内自动化完成一个高品质外贸电商建站页面的设计、搭建、排版。除此之外,FppGPT极短的时间内还完成了网站搜索引擎优化的SEO运营工作,自动生成几千个匹配关键词,并且把这些关键词自动体现在网站内容中,以及植入到品牌博客软文中。

有业内人士分析,由FppGPT所搭建的独立站可以马上投入商用,网站架构、数据结构、推广文案等可以与人工所搭建的外贸独立站媲美。其集成的人工智能营销、自动获取目标销售线索、自动优化广告投放素材、7x24小时在线智能客服更是与独立站的售前与售后场景强*。

据了解,FunPinPin是由具备全球视野和十五年数字营销经验的清华/斯坦福海归团队创立,旗下业务深耕自动化建站、数字化内容、精准营销以及垂直品类B2B平台服务。作为全球第 一个基于OpenAI技术的建站机器人FppGPT,目前整套服务定价是39800/年。



出名的ai数据分析平台 gpt人工智能模型

最著名的数,最出名的数字,比较有名的数字,数学上有名的数字

  (报告出品方/作者:广发证券,李娜,王亮)

  

  (一)多模态大模型GPT-4是OpenAI公司GPT系列最新一代模型

  美国OpenAI公司成立于2015年12月,是全球顶级的人工智能研究机构之一,创始人 包括Elon Musk、著名投资者Sam Altman、支付服务PayPal创始人Peter Thiel等人。 OpenAI作为人工智能领域的革命者,成立至今开发出多款人工智能产品。2016年, OpenAI推出了用于强化学习研究的工具集OpenAI Gym;同时推出开源平台OpenAI Universe,用于测试和评估智能代理机器人在各类环境中的表现。2019年,OpenAI 发布了GPT-2模型,可根据输入文本自动生成语言,展现出人工智能创造性思维的 能力;2020年更新了GPT-3语言模型,并在其基础上发布了OpenAI Codex模型,该 模型可以自动生成完整有效的程序代码。

  2021年1月,OpenAI发布了OpenAI CLIP, 用于进行图像和文本的识别分类;同时推出全新产品DALL-E,该模型可以根据文字 描述自动生成对应的图片,2022年更新的DALL-E2更是全方位改进了生成图片的质 量,获得了广泛好评。 2022年12月,OpenAI推出基于GPT-3.5的新型AI聊天机器人ChatGPT,在发布进 两个月后拥有1亿用户,成为史上用户增长最快的应用;美东时间2023年3月14日, ChatGPT的开发机构OpenAI正式推出多模态大模型GPT-4。

  

  GPT(General Pre-Training)系列模型即通用预训练语言模型,是一种利用 Transformer作为特征抽取器,基于深度学习技术的自然语言处理模型。 GPT系列模型由OpenAI公司开发,经历了长达五年时间的发展: (1)其最早的产品GPT模型于2018年6月发布,该模型可以根据给定的文本序列进 行预测下一个单词或句子,充分证明通过对语言模型进行生成性预训练可以有效减 轻NLP任务中对于监督学习的依赖; (2)2019年2月GPT-2模型发布,该模型取消了原GPT模型中的微调阶段,变为无 监督模型,同时,GPT-2采用更大的训练集尝试zero-shot学习,通过采用多任务模 型的方式使其在面对不同任务时都能拥有更强的理解能力和较高的适配性;

  (3)GPT-3模型于2020年6月被发布,它在多项自然语言处理任务上取得了惊人的 表现,并被认为是迄今为止最先进的自然语言处理模型之一。GPT-3训练使用的数 据集为多种高质量数据集的混合,一次保证了训练质量;同时,该模型在下游训练 时用Few-shot取代了GPT-2模型使用的zero-shot,即在执行任务时给予少量样例, 以此提高准确度;除此之外,它在前两个模型的基础上引入了新的技术――“零样 本学习”,即GPT-3即便没有对特定的任务进行训练也可以完成相应的任务,这使 得GPT-3面对陌生语境时具有更好的灵活性和适应性。

  (4)2022年11月,OpenAI发布GPT-3.5模型,是由GPT-3微调出来的版本,采用 不同的训练方式,其功能更加强大。基于GPT-3.5模型,并加上人类反馈强化学习 (RLHF)发布ChatGPT应用,ChatGPT的全称为Chat Generati【【微信】】rmer,是建立在大型语言模型基础上的对话式自然语言处理工具,表现形式 是一种聊天机器人程序,能够学习及理解人类的语言,根据聊天的上下文进行互动, 甚至能够完成翻译、编程、撰写论文、编辑邮件等功能。 (5)2023年3月,OpenAI正式发布大型多模态模型GPT-4(输入图像和文本,输出 文本输出),此前主要支持文本,现模型能支持识别和理解图像。

  

  (二)GPT大模型通过底层技术的叠加,实现组合式的创新

  由于OpenAI并没有提供关于GPT-4用于训练的数据、算力成本、训练方法、架构等 细节,故我们本章主要讨论ChatGPT模型的技术路径。 ChatGPT模型从算法分来上来讲属于生成式大规模语言模型,底层技术包括 Transformer架构、有监督微调训练、RLHF强化学习等,ChatGPT通过底层技术 的叠加,实现了组合式的创新。 GPT模型采用了由Google提出的Transformer架构。Transformer架构采用自注意 力机制的序列到序列模型,是目前在自然语言处理任务中最常用的神经网络架构之 一。相比于传统的循环神经网络(RNN)或卷积神经网络(CNN),Transformer 没有显式的时间或空间结构,因此可以高效地进行并行计算,并且Transformer具有 更好的并行化能力和更强的长序列数据处理能力。

  ChatGPT模型采用了“预训练+微调”的半监督学习的方式进行训练。第一阶段是 Pre-Training阶段,通过预训练的语言模型(Pretrained Language Model),从大 规模的文本中提取训练数据,并通过深度神经网络进行处理和学习,进而根据上下 文预测生成下一个单词或者短语,从而生成流畅的语言文本;第二阶段是Fine-tuning 阶段,将已经完成预训练的GPT模型应用到特定任务上,并通过少量的有标注的数 据来调整模型的参数,以提高模型在该任务上的表现。

  ChatGPT在训练中使用了RLHF人类反馈强化学习模型,是GPT-3模型经过升级并 增加对话功能后的最新版本。2022年3月,OpenAI发布InstructGPT,这一版本是 GPT-3模型的升级版本。相较于之前版本的GPT模型,InstructGPT引入了基于人类 反馈的强化学习技术(Reinforcement Learning with Human Feedback,RLHF), 对模型进行微调,通过奖励机制进一步训练模型,以适应不同的任务场景和语言风 格,给出更符合人类思维的输出结果。

  RLHF的训练包括训练大语言模型、训练奖励模型及RLHF微调三个步骤。首先,需 要使用预训练目标训练一个语言模型,同时也可以使用额外文本进行微调。其次, 基于语言模型训练出奖励模型,对模型生成的文本进行质量标注,由人工标注者按 偏好将文本从最佳到最差进行排名,借此使得奖励模型习得人类对于模型生成文本 序列的偏好。最后利用奖励模型输出的结果,通过强化学习模型微调优化,最终得 到一个更符合人类偏好语言模型。

  

  (三)GPT-4相较于ChatGPT实现多重能力跃迁

  ChatGPT于2022年11月推出之后,仅用两个月时间月活跃用户数便超过1亿,在短 时间内积累了庞大的用户基数,也是历史上增长最快的消费应用。多模态大模型GPT-4是OpenAI的里程碑之作,是目前最强的文本生成模型。 ChatGPT推出后的三个多月时间里OpenAI就正式推出GPT-4,再次拓宽了大模型的 能力边界。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本),相比 上一代,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更 具创造性和协作性;能够处理超过25000个单词的文本,允许长文内容创建、扩展 对话以及文档搜索和分析等用例。

  (1)GPT-4具备更高的准确性及更强的专业性。GPT-4在更复杂、细微的任务处理 上回答更可靠、更有创意,在多类考试测验中以及与其他LLM的benchmark比较中 GPT-4明显表现优异。GPT-4在模拟律师考试GPT-4取得了前10%的好成绩,相比 之下GPT-3.5是后10%;生物学奥赛前1%;美国高考SAT中GPT-4在阅读写作中拿 下710分高分、数学700分(满分800)。

  (2)GPT能够处理图像内容,能够识别较为复杂的图片信息并进行解读。GPT-4 突破了纯文字的模态,增加了图像模态的输入,支持用户上传图像,并且具备强大 的图像能力―能够描述内容、解释分析图表、指出图片中的不合理指出或解释梗图。 在OpenAI发布的产品视频中,开发者给GPT-4输入了一张“用VGA电脑接口给 【【微信】】充电”的图片,GPT-4不仅可以可描述图片,还指出了图片的荒谬之处。

  (3)GPT-4可以处理超过25000字的文本。在文本处理上,GPT-4支持输入的文字 上限提升至25000字,允许长文内容创建、扩展对话以及文档搜索和分析等用例。 且GPT-4的多语言处理能力更优,在GPT-4的测评展示中,GPT-4可以解决法语的 物理问题,且在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中, 有24种语言下,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英 语语言性能。(4)具备自我训练与预测能力,同时改善幻觉、安全等局限性。GPT-4的一大更新 重点是建立了一个可预测拓展的深度学习栈,使其具备了自我训练及预测能力。同 时,GPT-4在相对于以前的模型已经显著减轻了幻觉问题。在OpenAI的内部对抗性 真实性评估中,GPT-4的得分比最新的GPT-3.5模型高 40%;在安全能力的升级上, GPT-4明显超出ChatGPT和GPT3.5。

  

  (四)商业模式愈发清晰,微软Copilot引发跨时代的生产力变革

  OpenAI已正式宣布为第三方开开发者开放ChatGPT API,价格降低加速场景应用 爆发。起初ChatGPT免费向用户开放,以获得用户反馈;今年2月1日,Open AI推 出新的ChatGPT Plus订阅服务,收费方式为每月20美元,订阅者能够因此而获得更 快、更稳定的响应并优先体验新功能。3月2日,OpenAI官方宣布正式开放ChatGPT API(应用程序接口),允许第三方开发者通过API将ChatGPT集成至他们的应用程 序和服务中,价格为1ktokens/$0.002,即每输出100万个单词需要2.7美元,比已有 的GPT-3.5模型价格降低90%。模型价格的降低将推动ChatGPT被集成到更多场景 或应用中,丰富ChatGPT的应用生态,加速多场景应用的爆发。

  GPT-4发布后OpenAI把ChatGPT直接升级为GPT-4最新版本,同时开放了GPT-4 的API。ChatGPT Plus付费订阅用户可以获得具有使用上限的GPT-4访问权限(每4 小时100条消息),可以向GPT-4模型发出纯文本请求。用户可以申请使用GPT-4 的API,OpenAI会邀请部分开发者体验,并逐渐扩大邀请范围。该API的定价为每输 入1000个字符(约合750个单词),价格为0.03美元;GPT-4每生成1000个字符价格为 0.06美元。 Office引入GPT-4带来的结果是生产力、创造力的全面跃升。微软今天宣布,其与 OpenAI共同开发的聊天机器人技术Bing Chat正在GPT-4上运行。

  Copilot OpenAI发布升级后的GPT-4后,微软重磅发布了GPT-4平台支持的新AI功能, Microsoft 365 Copilot,并将其嵌入Word、PowerPoint、Excel、Teams等Office办 公软件中。Copilot可以在一篇速记的基础上快速生成新闻草稿、并完成草稿润色; 在Excel中完成各种求和、求平均数,做表格、归纳数据、甚至是完成总结提取;在 PPT上可以直接将文稿内容一键生成;在Outlook邮件中自动生成内容、并自由调整 写作风格、插入图表;在Teams中总结视频会议的要点/每个发言人谁说了核心内容, 跟进会议流程和内容,自动生成会议纪要、要点和任务模板。基于GPT-4的Copilot 可以看作是一个办公AI助理,充分发挥出了AI对于办公场景的赋能作用,有望从根 本上改变工作模式并开启新一轮生产力增长浪潮。

  

  

  (一)历经三阶段发展,AIGC技术升级步入深化阶段

  AIGC全程为AI-Generated Content,人工智能生成内容,是继专业生成内容(PGC, Professional Generate Content)和用户生成内容(UGC,User Generate Content) 之后,利用AI自动生成内容的新型生产方式。传统AI大多属于分析式AI,对已有数 据进行分析并应用于相应领域。以AIGC为典型的生成式AI不在局限于分析固有数据, 而是基于训练数据和算法模型自主生成创造新的文本、3D、视频等各种形式的内容。

  历经三阶段迭代,AIGC现已进入快速发展阶段: (1)早期萌芽阶段(1950s-1990s),受限于科技水平及高昂的系统成本,AIGC 仅限于小范围实验。 (2)沉淀积累阶段(1990s-2010s),AIGC开始从实验性向实用性逐渐转变。但 由于其受限于算法瓶颈,完成创作能力有限,应用领域仍具有局限性; (3)快速发展阶段(2010s-至今),GAN(Generati【【微信】】,生成 式对抗网络)等深度学习算法的提出和不断迭代推动了AIGC技术的快速发展,生成 内容更加多元化。

  AIGC可分为智能数字内容孪生、智能数字内容编辑及智能数字内容创作三大层次。 生成式AI是指利用现有文本、音频文件或图像创建新内容的人工智能技术,其起源 于分析式AI,在分析式AI总结归纳数据知识的基础上学习数据产生模式,创造出新 的样本内容。在分析式AI的技术基础上,GAN、Transformer网络等多款生成式AI 技术催生出许多AIGC产品,如DALL-E、OpenAI系列等,它们在音频、文本、视觉 上有众多技术应用,并在创作内容的方式上变革演化出三大前沿能力。AIGC根据面 向对象、实现功能的不同可以分为智能数字内容孪生、智能数字内容编辑及智能数 字内容创作三大层次。

  (二)生成算法+预训练模型+多模态推动AIGC的爆发

  AIGC的爆发离不开其背后的深度学习模型的技术加持,生成算法、预训练和多模态 技术的不断发展帮助了AIGC模型具备通用性强、参数海量、多模态和生成内容高质 量的特质,让AIGC实现从技术提升到技术突破的转变。 (1)生成算法模型不断迭代创新,为AIGC的发展奠定基础。早期人工智能算法学 习能力不强,AIGC技术主要依赖于事先指定的统计模型或任务来完成简单的内容生 成和输出,对客观世界和人类语言文字的感知能力较弱,生成内容刻板且具有局限 性。GAN(Generati【【微信】】,生成式对抗网络)的提出让AIGC发展 进入新阶段,GAN是早期的生成模型,利用博弈框架产生输出,被广泛应用于生成 图像、视频语音等领域。随后Transformer、扩散模型、深度学习算法模型相继涌现。

  

  Transformer被广泛应用于NLP、CV等领域,GPT-3、LaMDA等预训练模型大多是 基于transformer架构构建的。ChatGPT是基于Transformer架构上的语言模型, Transformer负责调度架构和运算逻辑,进而实现最终计算。Tansformer是谷歌于 2017年《Attention is All You Need》提出的一种深度学习模型架构,其完全基于注 意力机制,可以按照输入数据各部分重要性来分配不同的权重,无需重复和卷积。 相较于循环神经网络(RNN)流水线式的序列计算,Transformer可以一次处理所有 的输入,摆脱了人工标注数据集的缺陷,实现了大规模的并行计算,模型所需的训 练时间明显减少,大规模的AI模型质量更优。

  Transformer的核心构成是编码模块和解码模块。GPT使用的是解码模块,通过模 块间彼此大量堆叠的方式形成了GPT模型的底层架构,模块分为前馈神经网络层、 编解码自注意力机制层(Self-Attention)、自注意力机制掩码层。自注意力机制层 负责计算数据在全部内容的权重(即Attention),掩码层帮助模型屏蔽计算位置右 侧未出现的数据,最后把输出的向量结果输入前馈神经网络,完成模型参数计算。

  (2)预训练模型引发AIGC技术能力的质变。AI预训练模型是基于大规模宽泛的数 据进行训练后拥有适应广泛下游任务能力的模型,预训练属于迁移学习的领域,其 主旨是使用标注数据前,充分利用大量无标注数据进行训练,模型从中全面学习到 与标注无关的潜在知识,进而使模型灵活变通的完成下游任务。视觉大模型提升 AIGC感知能力,语言大模型增强AIGC认知能力。

  NLP模型是一种使用自然语言处理(Natural Language Processing,NLP)技术来解决自然语言相关问题的机器学习模型。在NLP领域,AI大模型可适用于人机语言交互,并进行自然语言处理从实现相应的文本分类、文本生成、语音识别、序列标注、机器翻译等功能。NLP的研究经过了以规则为基础的研究方法和以统计为基础的研究方法的发展,目前以基于Transformer的预训练模型已成为当前NLP领域的研究热点,BERT、GPT等模型均采用这一方法。CV模型指计算机视觉模型,是一种基于图像或视频数据的人工智能模型。常见的CV 模型有采用深度学习的卷积神经网络(CNN)和生成对抗网络(GAN)。

  近年来以 视觉Transformer(ViT)为典型的新型神经网络,通过人类先验知识引入网络设计, 使得模型的收敛速度、泛化能力、扩展性及并行性得到飞速提升,通过无监督预训 练和微调学习,在多个计算机视觉任务,如图像分类、目标检测、物体识别、图像 生成等取得显著的进步。

  

  (3)多模态技术拓宽了AIGC技术的应用广度。多模态技术将不同模态(图像、声 音、语言等)融合在预训练模型中,使得预训练模型从单一的NLP、CV发展成音视 频、语言文字、文本图像等多模态、跨模态模型。多模态大模型通过寻找模态数据 之间的关联点,将不同模态的原始数据投射在相似的空间中,让模态之间的信号相 互理解,进而实现模态数据之间的转化和生成。这一技术对AIGC的原创生成能力的 发展起到了重要的支持作用,2021年OpenAI推出AI绘画产品DALL.E可通过输入文 字理解生成符合语义且独一无二的绘画作品,其背后离不开多模态技术的支持。

  (三)多模态x多场景落地,AIGC爆发商业潜力

  ChatGPT的广泛应用意味着AIGC规模化、商业化的开始。ChatGPT是文字语言模 态AIGC的具体应用,在技术、应用领域和商业化方面和传统AI产品均有所不同。 ChatGPT已经具备了一定的对现实世界内容进行语义理解和属性操控的能力,并可 以对其回以相应的反馈。ChatGPT是AIGC重要的产品化应用,意味着AIGC规模化、 商业化的开始。创新工场董事长兼CEO李开复博士在3月14日表示,ChatGPT快速 普及将进一步引爆AI 2.0商业化。AI 2.0 是绝对不能错过的一次革命。

  多家公司正加紧研发ChatGPT类似产品,引爆新一轮科技企业AI军备竞赛。在GPT4 推出之后,Google开放自家的大语言模型API「PaLM API」,此外还发布了一款帮 助开发者快速构建AI程序的工具 MakerSuite。2月底,Meta公布一款全新的AI大型 语言模型LLaMA,宣称可帮助研究人员降低生成式AI工具可能带来的“偏见、有毒 评论、产生错误信息的可能性”等问题。 AIGC的应用领域分为视频、音频、文本、图像、跨模态生成五个部分。

  AIGC以其 真实性、多样性、可控性、组合性的特质,为各行业、各领域提供了更加丰富多元、 动态且可交互的内容。根据AIGC生成内容的模态不同,可将AIGC的应用领域分为 视频、音频、文本、图像、跨模态生成五个部分。其中,在图像、文本、音频等领 域,AIGC已经得到了较大优化,生成内容质量得到明显提升;而在视频与跨模态内 容生成方面,AIGC拥有巨大发展潜力。

  

  

  (一)AI大模型驱动高算力需求

  数据、算力及模型是人工智能发展的三要素。以GPT系列为例: (1)数据端:自OpenAI于2018年发布GPT-1,到2020年的GPT-3,GPT模型参数 数量和训练数据量实现指数型增长。参数数量从GPT-1的1.17亿增长到GPT-3的 1750亿,训练数据量从5GB增长到的45TB; (2)模型端:ChatGPT在以往模型的基础上,在语料库、计算能力、预训练、自我 学习能力等方面有了明显提升,同时Transformer架构突破了人工标注数据集的不足, 实现与人类更顺畅的交流; (3)算力端:根据OpenAl发布的《Language Models are Few-Shot Learners》, 训练13亿参数的GPT-3 XL模型训练一次消耗的算力约为27.5 PFlop/s-dav,训练 1750亿参数的完整GPT-3模型则会消耗算力3640 PFlop/s-dav(以一万亿次每秒速 度计算,需要3640天完成)。

  在人工智能发展的三要素中,数据与算法都离不开算力的支撑。随着AI算法突飞猛 进的发展,越来越多的模型训练需要巨量算力支撑才能快速有效实施,同时数据量 的不断增加也要求算力配套进化。如此看来,算力成为AI突破的关键因素。 AI大模型的算力需求主要来自于预训练、日常运营和模型微调。 (1)预训练:在完成完整训练之前,搭建一个网络模型完成特定任务,在训练网络 过程中不断调整参数,直至网络损失和运行性能达到预期目标,此时可以将训练模 型的参数保存,用于之后执行类似任务。根据中国信通院数据,ChatGPT基于GPT3.5 系列模型,模型参数规模据推测达十亿级别,参照参数规模相近的GPT-3 XL模型, 则ChatGPT完整一次预训练消耗算力约为27.5 PFlop/s-dav。

  (2)日常运营:满足用户日常使用数据处理需求。根据Similarweb的数据,23年1月份ChatGPT月活约6.16亿,跳出率13.28%每次访问页数5.85页,假设每页平均200 token。同时假设:模型的FLlops利用率为21.3%与训练期间的GPT-3保持一致;完整参数模型较GPT-3上升至2500亿;以FLOPs为指标,SOTA大型语言在在推理过程中每个token的计算成本约为2N。根据以上数据及假设,每月日常运营消耗算力约为6.16亿*2*(1-13.28%)*5.85*200*2500亿/21.3%=14672PFlop/s-day。(3)模型微调:执行类似任务时,使用先前保存的模型参数作为初始化参数,在训练过程中依据结果不断进行微调,使之适应新的任务。

  ChatGPT引发新一轮AI算力需求爆发。根据OpenAI发布的《AI and Compute》分 析报告中指出,自2012年以来,AI训练应用的算力需求每3.4个月就回会翻倍,从 2012年至今,AI算力增长超过了30万倍。据OpenAI报告,ChatGPT的总算力消耗 约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7-8个算 力500P的数据中心才能支撑运行。上海新兴信息通信技术应用研究院首席专家贺仁 龙表示,“自2016年阿尔法狗问世,智能算力需求开启爆发态势。如今ChatGPT则 代表新一轮AI算力需求的爆发”。

  

  全球算力规模将呈现高速增长态势。根据国家数据资源调查报告数据,2021年全球 数据总产量67ZB,近三年平均增速超过26%,经中国信息通信研究院测算,2021 年全球计算设备算力总规模达到615EFlops,增速达44%。根据中国信通院援引的 IDC数据,2025年全球算力整体规模将达3300EFlops,2020-2025年的年均复合增 长率达到50.4%。结合华为GIV预测,2030年人类将迎来YB数据时代,全球算力规 模达到56ZFlops,2025-2030年复合增速达到76.2%。

  (二)云商/运营商推进AI领域算力基础设施投入

  北美云厂商资本支出向技术基础设施和新数据中心架构倾斜。22Q4亚马逊资本支出 主要用于技术基础设施的投资,其中大部分用于支持AWS业务增长与支持履行网络 的额外能力。预计未来相关投资将延续,并增加在技术基础设施方面的支出。谷歌 指引2023年资本开支与2022