AI 电话会议爆了！分析师、基金经理疯狂涌入！参会人数超过千人，周鸿祎都说了些什么

互联资讯 2023-04-11 05:08:02 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

3 月 19 日晚间，机构路演直接把进门财经 APP 挤爆了。券商分析师、基金经理、投资者都在听 360 红衣教主周鸿t聊 AI，一起来看看都说了哪些干货。

周鸿t聊 AI

据了解，进门财经定位是专业投资机构的路演工具，一般是券商、公募、私募、资管、保险等等机构的人用。可以想象，现在的市场热点全在 ChatGPT 概念板块上。

据悉，民生证券请来了三六零（SH601360）红衣教主的周鸿t。据说参会人数超过千人！

Q：上游哪些场景很关键？

A：算力不是最关键的问题，场景和数据是关键。我们二线队伍，账上 200 多亿人民币，之前国家搞了很多超算中心，没事情干，现在发现配了 GPU 就有东西看。【【淘密令】】算法是谷歌发明的，实现靠的是大力出奇迹，几千亿参数。这是个工程问题。从 1 到 n 中国能做的很快，chatgpt 中国做的很快，谷歌和 Meta 会很尴尬。Meta 开源了他的大语言模型，技术的 knowhow 会快速传播。

关键的东西，第一是数据，有知识量的数据做训练，聊天的语料不包括知识 ChatGPT 中文语料占了不到 5%，大量知识在外文期刊里面，只用中文训练语料是不够的。很多机构说用了很大的参数，但是不敢拿出来说，大概率是数据不够。还需要人类的枪花反馈学习和调优，激发 GPT 理解人类的查询意图，这个是问题的关键。

还有个很重要的是场景，微软放弃了自己的小娜的研究，全力帮助 AI，在场景化上可以让大家看到人工智能有什么场景。搜索引擎一直在做 NLP，自然语言处理，大家都在跟踪使用，搜索引擎在获取海量数据方面优势。我们和百度抓取的网页在千亿万亿的规模，需要清洗辣鸡网页进行工程化的索引。我们搜索引擎要抓取英文的维基百科和语料，对于我们是现成的。初创公司可能会卡在工程化的初始阶段，这个对工程化的要求比较高。还有人工标注的调优，微软做了很多贡献，搜索引擎帮助很大。360 搜索份额占比 30%，百度占比 60%。微软帮助 chatgpt 占据了很多的场景，下一步可能会把 teams（视频会议）等 TO B 的场景做结合。

Q：以后会不会很多行业不存在了，机器把人替代了 ?

A：我不是很认同。我认为这是个洗牌的机会，如果你不重视他，抓上这班车就不行。我们企业内部要起每个部门都用 AI 提升我们的能力，用 AI 的大语言模型赋能，这样会成为我们手里有力的竞争武器。GPT-4 的知识能力和考试的能力已经超越了每一个地球人，GPT-4 可能是用 3.5 和 4 互相训练。我们也考虑过这种，用 bert 这种理解性的模型进行反馈和奖励。这是个生产力工具，是能给各个产业赋能的，关键是你需要找到相应的场景和场景化的能力。

Q：以后小孩长大了应该会学什么专业吗？

A：这个问题很奇怪，该学什么专业学什么专业啊，对 prompt 很敏感。

Q：关于我们 360，行业现在是巨头扎堆，360 的核心优势？

A：第一个问题已经讲了，第一是数据的能力，不能光用中文的数据，要有全球数据的抓取能力，要能做到对垃圾的判别和清洗。用户上亿次搜索的数据，我们和百度有知识问答的栏目，这种涉及用户的真实的使用场景来进行训练。数据我们有优势。GPT2 和 bert 是开源的，真要做到上千亿上万亿的模型，几千张 GPU 的显卡，几个 T 的数据进行几个亿的训练，这个对工程化要求很高。第三，搜索引擎我们市场份额是百度的一半。搜索引擎不具备生成性，不会编出林黛玉倒拔垂杨柳的故事，生成式 AI 会无中生有，如果编的结果是不对的普通人很难验证就很麻烦。我们做泛化，泛化的知识图谱的搜索，前面的十条二十条结果给大语言模型做提炼，这样就不会让生成式 AI 无中生有。我们搜索引擎 dau 有一个亿，大语言模型可以做及时的翻译和推荐，我们这种场景可以很好的让用户体验到人工智能的场景，形成商业化的闭环。我在政协叫了个提案，大家忽视的是这个东西真正的破圈了。之前无论是阿尔法狗和蛋白质折叠，离生活比较远。得益于微软工程化产品化的能力。一方面要打造核心技术，全方位最大化的调用公司的资源。大模型的方向已经出来了，要做到大力出奇迹，500 亿到 1000 亿的参数训练，用有质量的语料。谷歌现在很尴尬，模型做出来了商业化的场景可能也被微软抢完了。微软专注场景和产品化的结合，chatgpt 专注技术，这样能实现很好的效果。

图片来源：视觉中国

Q：360 的场景和应用？

A：并行的。360 也在做 TO B，也是我们很重视的机会。我们的安全大脑帮助企业抵御攻击。我们的机会是，中国企业不接受公有云，希望有个私有化部署的 GPT 和数据。未来每个企业可能有自己的大脑。只做垂直行业的训练肯定是不行的（说的就是科大讯飞）。我们离 GPT 还有 24 个月到 36 个月的差距，第一个版本能做到几百亿参数的模型的时候，做到 GPT 的六成的功力，做到企业内部是够用了。TO B 和 TO G 端是有大量的机会的。面对中小企业端，我们打算推出生成式 AI 的办公套件和应用。chatgpt 找了 100 家垂直的 SaaS 公司，会专门训练垂类的应用。我们这两年很关注 sme（中小企业），中小企业对企业数字化的要求功能明确，少花钱使用简单，SaaS 更合适，我们去年推面向企业的 SaaS 云服务，一年 120 万家客户。我们浏览器国内份额最大，做了个 SaaS 商店，我们会找合作伙伴做一些场景。TO C 我们有大量的使用场景，浏览器加上 AI 插件变成 AI 个人助力。TO B，TO SME 和 TO C 三十多个场景使用不同的能力，尽快占据用户的使用场景。

Q：我们会和百度一样芯片模型全覆盖的平台吗？

A：我们肯定不是这个方向。谷歌自己搞过 GPU，也就自己用。训练最好还是用 A100 和 A800，框架没必要自己搞，自己搞个框架还要花精力和别的芯片适配。微软这么强大微软只做应用，chatgpt 用的框架也是用的行业通用框架。我不认为产业链全都做了是好事。我们坚定的沿着 transformer 框架把模型干到千亿。首先是要占据应用场景。

Q：百度内测效果不错，对于 360 未来应用的推广是不是更有信心了 ?

A：百度搜索一哥肯定能做好的，微软的搜索份额比谷歌要小，可以放开手要做创新。百度为什么做一个聊天机器人我不理解，我要做的话可能更愿意和搜索相结合。国内我不认为会和美国一样一支独大，头条和其他互联网厂商大家不会相互支持，会互相竞争，360 啊微博啊 B 站啊知乎啊小红书啊美团滴滴等等，他也不敢用巨头的服务，肯定要自己搞。还是希望在这个模型上做出几个超级应用。有应用有场景的公司加上模型会有价值。

Q：中国电信布局了企业版的 ChatGPT，对这个的关注提升到了国家战略的高度，国家的重视会对行业产生什么影响？

A：国家队干这个事肯定不是坏事，互联网上大家都做过。从目前拥有的数据和团队能力来看，民营企业和国企都在一个起跑线上。只要不是只要牌照才能搞大语言模型，这样都有机会。GPT 是个生产力工具，这将决定未来国际竞争当中的国运。美国人对于大语言模型也有政治正确的要求。

Q：中国和美国比有 24 到 36 个月的时间差？

A：不是和微软比。GPT-4 验证了我们很多观点，他的参数量我觉得应该到了万亿，训练的数据比原来大了 5 到 10 倍。人类反馈强化学习不再是十万组，而是几十万组的答案对，有很强的智能的能力。目前来看多模态是胜过国内的能力的。国内的图像识别还是传统的图像识别，chatgpt 把所有都看做序列，图像也是序列，他能把图像组成部分的关系和逻辑相关性总结出来。他在阅读文档上的能力国内做不到。他能支持 5 万字的输入，表示他的深度记忆能力越强，对上下文的理解越好。GPT3.5 我们认为国内和他的差距 18 个月，GPT-4 是 24 个月。云谈了这么多年，企业上云的比例也还不高。这比光刻机的难度小多了。

Q：怎么看 GPT-4，会不会取代操作系统成为战略级的入口？

A：这是两个概念，需要 host 一个应用需要操作系统，操作系统还是需要的。人工智能没有突破之前大数据给企业用不好用。GPT 相当于是发电厂，这个比喻比较贴切。纯做 GPT 的公司有点来不及，要么是有 GPT 丰厚的场景。场景越大爆发性就越大，如果场景很小，就做了个虚拟人挂个 GPT 跟人对话，这个场景就很小。场景未来可能有多家服务提供商。

Q：场景是我们非常关注的点，特斯拉的机器人也是爆款，多模态和机器人的关系？人形机器人是终极目标吗？

A：我不这么认为。不考虑机器人的外形，音响之类的用自然语言和人交流这关就是过了。GPT 能否处理好机械手臂，寻找空间定位也是，出了 GPT 之后传统的做语言识别的图像识别的就有问题了。人形机器人有个最大的问题，机械手臂抬起的力量，这和人工智能没有关系。如果机器人手里拿不了太重的东西，这可能会成为妨碍。自动驾驶汽车也是个机器人，只不过长了 4 个轮子。GPT 的大语言都可以赋能。你们和智能音箱聊过天，聊两句就能知道他是个滞胀，GPT 肯定通过了图灵训练。橡胶娃娃也是仿真机器人。

Q：GPT-4 在物联网终端的广泛应用是大趋势了，边缘计算的需求？

A：这跟边缘计算有什么关系呢？构不成边缘计算的节点。真正的能力都在云端，运算都在云端。

曾直播透露 360 大语言模型发展战略

3 月 15 日，周鸿t在直播中透露了公司的人工智能发展战略。"360 将 " 两翼齐飞 "，一方面继续全力自研生成式大语言模型技术，造自己的‘发动机’；另一方面将占据场景做产品，尽快推出相关产品服务。"周鸿t表示。

周鸿t认为，目前中国发展 GPT 技术，首先要占据应用场景，同步全力发展核心算法技术。GPT 的应用场景需要复杂的工程化和商业化的能力，以及丰富的数据清洗和人工标注的经验，等算法赶上 GPT-4 再上马，市场就错过了。

在场景市场上，周鸿t透露，360 将人工智能技术与现有业务紧密结合，充分发挥公司技术创新、工程化、场景化优势，从个人（ToC）、中小微企业（ToSME）、政府及大型企业（ToB&ToG）三个维度入手，全面布局生成式大语言模型技术，赋能数字中国发展。

在 ToC 端，360 将借鉴微软与 chatgpt 能力结合所推出的 New Bing 模式，推出新一代智能搜索引擎，并基于搜索场景推出人工智能个人助理类产品；在 ToSME 端，360 将基于生成式大模型推出 SaaS 化垂直应用，如结合生成式 AI 的 " 苏打办公套件 " 和 " 企业即时通讯工具 - 推推 " 等，以解决中小微企业数字化转型难题；在 ToB&ToG 端，360 已将核心的数字安全能力融入安全 AI 模型，计划结合数字安全业务推出企业私有化 AI 服务，满足客户对私有知识、资产的索引需求。

周鸿t透露，360 的大语言模型能力一方面依托于自有知识产权技术创新，一方面将综合利用已有技术，提升产品智能化水平。

每日经济新闻综合民生证券、公开报道

（免责声明：本文内容与数据仅供参考，不构成投资建议，使用前核实。据此操作，风险自担。）

每日经济新闻

巨型ai模型背后的分布式训练技术 ai变构技术研究进展

巨型ai模型背后的分布式是什么,巨型ai模型背后的分布式技术,巨型ai模型背后的分布式有哪些,ai大模型

【专栏：前沿进展】2021年已进入尾声，回顾一年来人工智能领域的发展历程，有众多瞩目的技术事件发展。其中，预训练模型无疑是2021年的重点发展领域。年初的Switch chatgpt开启万亿参数模型的研发热潮，DALL・E和CLIP的问世推动多模态预训练的发展，“悟道”系列模型成为国内首个突破万亿参数模型等等――层出不穷的预训练模型涌现，催生出超大规模智能模型的新兴研究领域。

与此同时，研究者在研发模型之外，也关注大规模预训练加速方法，以提升计算效率，降低算力依赖。此外，针对超大规模智能模型技术、社会、经济、伦理等方面的系统研究拉开序幕，基础模型相关的研究体系已然形成。

作为2021年终盘点，智源社区整理今年人工智能领域的发展情况和案例，通过汇总专家学者观点建议，形成《智源人工智能前沿报告》（AI Frontiers Report），预计将于2021年末发布，该报告涵盖人工智能技术中的机器学习、计算机视觉、自然语言处理等十余个科研领域，AI平台和工具技术发展情况，以及人工智能产业方面的发展趋势、动向情况等，敬请期待。本篇文章来自该报告预训练模型技术相关板块。

审订专家：刘知远、王树徽、袁莎

撰文：戴一鸣

随着BERT、GPT-3、DALL・E等超大模型的兴起，“自监督学习+预训练模型微调”适配方案逐渐成为主流。然而，随着超大规模预训练模型在科研、产业、社会、经济等领域的作用日益凸显，其带来的深远影响成为科学家们关注的重点。

案例1：Percy Liang、李飞飞等学者提出基础模型概念

8月，Percy Liang、李飞飞等学者将大规模预训练模型统一命名为基础模型（Foundation Models)，并撰文讨论基础模型面临的机遇和挑战。论文分为四个部分，分别阐述了基础模型的能力、应用领域、技术层面和社会影响。

图注：基础模型的涌现和同质化现象

来源&#【【网址】】/pdf/2108.07258.pdf

图注：基础模型在多种模态数据的训练和下游任务应用中处于中心地位

来源&#【【网址】】/pdf/2108.07258.pdf

图注：基础模型涉及的议题

来源&#【【网址】】/pdf/2108.07258.pdf

案例2：DeepMind发表语言模型社会危害评估论文

12月，DeepMind发表论文，研究预训练语言模型带来的伦理和社会危害。研究者主要探究了模型在六大方面的不良影响，并谈到两个伦理和社会影响方面需要研究者持续关注。

研究者认为，当前的基准测试工具不足以评估一些伦理和社会危害。例如，当语言模型生成错误信息，人类会相信这种信息为真。评估这种危害需要更多与语言模型进行人机交互。此外，AI领域对于风险控制的研究依然不足。例如，语言模型会学习、复现和放大社会偏见，但是关于这一问题的研究仍处于早期阶段。

图注：DeepMind论文研究的六大语言模型伦理和社会危害

来源&#【【网址】】/blog/article/language-modelling-at-scale

GPT-3的问世，激发研究者探索规模更大、性能更惊人的超大规模预训练模型。国内外大型科研机构和企业纷纷投入巨量算力进行研发工作，将算力规模推升至万亿规模，探索模型的参数、性能和通用任务能力边界。

目前，已有OpenAI、谷歌、FaceBook、微软、英伟达、智源研究院、阿里达摩院、华为、百度、浪潮等研发机构和企业加入“军备竞赛”。

案例1：谷歌研发万亿规模预训练模型Switch chatgpt

1月，谷歌研究人员研发出新的语言模型Switch chatgpt，包含1.6万亿个参数，是包含1750亿参数的GPT-3的九倍。研究者将Switch chatgpt与谷歌研究的T5-Base和T5-Large模型进行了对比，结果表明，在相同的算力资源下，新模型实现了最高7倍的预训练速度提升。

图注：Switch chatgpt编码块结构

来源&#【【网址】】/pdf/2101.03961.pdf

案例2：智源发布超大规模智能模型悟道1.0/2.0

3月20日，智源研究院发布我国首个超大规模智能信息模型“悟道1.0”，训练出包括中文、多模态、认知、蛋白质预测在内的系列模型，并在模型预训练范式、规模和性能扩增技术、训练语料数据库建设等方面取得了多项国际领先的技术突破。

6月1日，智源研究院发布“悟道2.0”模型，参数规模达到1.75万亿，是GPT-3的10倍，打破由Switch chatgpt预训练模型创造的1.6万亿参数记录，是中国首个万亿级模型。

图注：悟道2.0中的技术创新成果

来源：智源研究院

案例3：微软、英伟达发布预训练模型Megatron-Turing

10月，微软联合英伟达推出了Megatron-Turing（MT-NLP）预训练模型。该模型是微软的T-NLG（chatgpt）和英伟达Megatron-LM模型结合的下一代版本，包含5300亿参数。研究者选择了五个领域中的8项任务来评估MT-NLG的效果。实验中，该模型在其中一些任务上实现了最佳的性能表现。

图注：MT-NLG模型采用的数据集

来源：微软官网

图注：MT-NLG在零样本、单样本和小样本条件下在不同任务中的表现

来源：微软官网

案例4：DeepMind发布预训练模型Gopher

12月，DeepMind发布预训练语言模型Gopher，参数规模达2800亿。该模型采用4096块TPUv3加速芯片进行训练，并结合了多种并行加速策略。该研究主要用于探索不同规模的模型的优势和不足，了解在模型参数规模增长后，在哪些领域上能够得到更好的性能表现。

研究者发现，模型规模的增长对于阅读理解、事实核查、毒害言论辨认等任务有较大提升，但是逻辑推理和常识任务上的提升并不显著。此外，研究者也研究了Gopher模型在对话等领域的能力以及缺陷。

图注：Gopher和其他模型在大规模多任务语言理解（Massichatgptnderstanding，MMLU）基准上在不同类别下的表现

来源&#【【网址】】/blog/article/language-modelling-at-scale

其他案例：企业和科研机构持续研发超大规模预训练模型

除以上案例外，4月，华为云联合循环智能发布盘古NLP超大规模预训练语言模型，参数规模达1000亿，联合北京大学发布盘古α超大规模预训练模型，参数规模达2000亿；阿里达摩院发布270亿参数的中文预训练语言模型PLUG，联合清华大学发布参数规模达到1000亿的中文多模态预训练模型M6，目前已突破十万亿参数规模。7月，百度推出ERNIE 3.0 知识增强大模型，参数规模达到百亿。

10月，浪潮发布约2500亿的超大规模预训练模型；12月，百度推出ERNIE 3.0 Titan模型，参数规模达2600亿；谷歌训练参数规模达4810亿的巨型BERT模型，结果公布在MLPerfv1.1训练榜单上；此外，谷歌还提出了1.2万亿参数的通用稀疏语言模型GLaM，在7项小样本学习领域的性能超过GPT-3。

在大数据、大参数和大算力的支持下，预训练模型能够充分学习文本中的表征，掌握一定的知识。如果模型能够学习多种模态的数据，在图文生成、看图问答等视觉语言（chatgpt）任务上具有更强表现。多模态预训练模型是2021年的重点研究方向，OpenAI、微软、智源、清华大学、中科院自动化所等机构均发布了多模态预训练模型。

案例1：OpenAI提出大规模多模态预训练模型DALL・E和CLIP

1月，OpenAI同时发布了两个大规模多模态预训练模型――DALL・E和CLIP。DALL・E可以基于短文本提示（如一句话或一段文字）生成对应的图像，CLIP则可以基于文本提示对图片进行分类。OpenAI表示，研发多模态大模型的目标是突破自然语言处理和计算机视觉的界限，实现多模态的人工智能系统。

图注：DALL・E生成的“牛油果形状的椅子”

来源：OpenAI官网

图注：CLIP模型在多项ImageNet测试中取得优秀水平

来源：OpenAI官网

案例2：以色列希伯来大学等提出文生高清图模型StyleCLIP

3月，以色列希伯来大学、Adobe研究院等将StyleGAN和CLIP模型结合，提出了一种能够根据文本提示生成高清晰度图像的模型，名为StyleCLIP。研究者认为，StyleCLIP能够结合预训练模型学习到的语义知识，加上生成对抗网络的图像生成能力，能够创造出更逼真的图像，在实际应用中有一定的优势。

图注：StyleCLIP的处理图像的流程

来源&#【【网址】】/pdf/2103.17249.pdf

图注：根据文本提示进行的图像PS操作结果

来源&#【【网址】】/pdf/2103.17249.pdf

案例3：智源、清华等研究者提出文生图模型CogView

5月，智源研究院、清华大学、阿里达摩院的研究者发布了CogView文生图模型论文，其将VQ-VAE和40亿参数的chatgpt模型结合，通过在风格学习、超高清图像生成、文-图排序和时尚设计等多个下游任务上进行微调，并采用了消除NaN损失等稳定预训练的方法。

实验结果显示，CogView在模糊化后的MS COCO dataset数据集上取得了最高的FID结果，高于以往的GAN和DALL・E。

图注：CogView的架构

来源&#【【网址】】/pdf/2105.13290.pdf

图注：CogView按照提示语生成的图像

来源&#【【网址】】/pdf/2105.13290.pdf

案例4：Facebook研究者提出多任务多模态统一模型UniT

8月，Facebook研究团队提出了名为UniT的多任务多模态统一chatgpt模型，其基于统一的chatgpt Encoder-Decoder架构，能够同时解决视觉、多模态、语言等领域中的一系列任务，包括目标检测、视觉-文本推理、自然语言理解等。论文表示，该模型在7个任务上都有较强的性能。

图注：UniT模型能够学习的数据和完成的任务一览

来源&#【【网址】】/pdf/2102.10772.pdf

图注：UniT模型架构

来源&#【【网址】】/pdf/2102.10772.pdf

案例5：清华等研究者提出跨模态提示学习模型CPT

9月，清华和新加坡国立大学的研究者提出了跨模态提示学习模型CPT，其利用颜色对跨模态预训练模型进行基于提示学习的微调，在视觉定位、场景图生成任务的少次学习场景下较基线模型取得显著提升。

图注：CPT跨模态提示学习框架

来源&#【【网址】】/pdf/2109.11797.pdf

案例6：微软亚洲研究院、北大研究者提出涵盖三种模态数据的预训练模型NüWA（女娲）

11月，微软亚洲研究院、北大研究者提出统一多模态预训练模型NüWA。该模型采用3D chatgpt架构，能够生成视觉（图像或视频）信息。通过将该模型在8个下游任务上进行试验，女娲模型在文生图、文生视频、视频预测等任务上实现最佳性能。

图注：女娲模型支持的下游任务

来源&#【【网址】】/pdf/2111.12417.pdf

图注：女娲模型的架构

来源&#【【网址】】/pdf/2111.12417.pdf

受制于算力资源，超大规模预训练模型的训练和推理面临严重的瓶颈。在GShard和Switch chatgpt的研究中，谷歌通过采用混合专家技术（Mixture of Experts，MoE），通过在神经网络中引入多个专家网络（Expert Network），降低需要激活的神经元数量，提升模型的计算效率，将预训练语言模型的参数提升至万亿规模。

图注：MoE的架构，采用稀疏门控函数（Sparse Gating Function）来决定执行计算的专家网络

来源&#【【网址】】/pdf/1701.06538.pdf

案例1：微软等研究者提出ZeRO-Offload异构训练技术

随着超大规模预训练模型参数规模的增加，今年出现了更多大模型计算加速和优化方法，着力提升模型的计算效率。1月，微软、加州大学默塞德分校（Unichatgpt, Merced）的研究者提出了一种名为“ZeRO-Offload”的异构深度学习训练技术，使用相同的硬件能够训练比以往规模大10倍的模型。

在32GB RAM的V100 GPU上，用户可以通过ZeRO-offload训练130亿参数的GPT-2；在单个DGX-2服务器上，ZeRO-offload能够训练参数量超700亿的模型，在原有的硬件基础上实现了4.5倍的模型规模提升。

案例2：智源、清华研究者联合研发FastMoE加速系统

由于MoE技术和谷歌软硬件绑定，其无法直接应用于PyTorch等开源算法框架。为了解决这一问题，3月，智源研究院和清华大*合研发了名为FastMoE的加速系统，使普通用户可以通过改写代码的方式，直接使用MoE模块。

相比原版，FastMoE实现了47倍的提速优化。FastMoE系统既可以作为PyTorch网络中的一个模块使用，也可用于改造现有网络中某个层。用户只需要几行代码便可调用MoE模块。FastMoE也支持将任意神经网络模块作为专家网络，并包含了一些专门优化的CUDA代码，更加充分地利用了GPU大规模并行计算的能力。

图注：调用FastMoE代码的方式

来源&#【【网址】】/laekov/chatgpt

图注：FastMoE和原版PyTorch性能的对比

来源：https://mp.weixin.qq.com/s/9chatgptg

图注：FastMoE的数据并行模式

来源：https://mp.weixin.qq.com/s/9chatgptg

案例3：智源、清华研究者联合研发BMInf加速系统

预训练大模型在各个领域均取得了惊人的效果，但大模型的应用却具有较高的算力门槛，较长的模型响应速度。9月，清华与智源研究者联合发布了低资源大模型推理工具包BMInf，在消费级显卡上也可以进行百亿大模型的高效推理。

图注：BMInf和原版PyTorch性能的对比

来源&#【【网址】】/OpenBMB/BMInf

案例4：微软、英伟达联合提出PTD-P加速方法

10月，微软和英伟达联合提出了PTD-P（Inter-node Pipeline Parallelism, Intra-node Tensor Parallelism, and Data Parallelism）训练加速方法，通过数据并行、张量并行和Pipeline并行“三管齐下”的方式，将模型的吞吐量提高10%以上。

该并行方法可以在3072个GPU上，以502P的算力对一万亿参数的GPT架构模型进行训练，实现单GPU吞吐量52%的性能提升。利用该技术，微软和英伟达在3000多块GPU上训练出5300亿参数的超大规模预训练语言模型Megatron-Turing。

图注：采用PTD-P技术训练模型时达到的参数规模和性能水平

（单位：teraFIOP/s per GPU；petaFLOP/s）

来源&#【【网址】】/pdf/2104.04473.pdf

随着数据规模逐渐扩大，数据模态进一步丰富，预训练模型将向更多领域渗透，通过“预训练-微调”的范式，完成多种类型的任务。在科研领域，预训练模型将与领域内的数据结合，成为一种完成下游任务的“基础模型”，助力诞生更多科学研究发现。在产业领域，面向更为复杂的智能决策场景，基于多种互联网数据进行预训练，具有决策能力的大模型可能是下一步发展的重点。

案例1：谷歌提出多任务统一模型MUM

5月，谷歌在2021 IO大会上公开了多任务统一模型（Multitask Unified Model，MUM）的发展情况。MUM模型能够理解75种语言，并预训练了大量的网页数据，擅长理解和解答复杂的决策问题，并能够从跨语言多模态网页数据中寻找信息，在客服、问答、营销等互联网场景中具有应用价值。

图注：MUM模型能够根据用户提问从多种源头的网页信息中搜索出对应的旅行攻略

本文地址： https://www.528683.com//show-400846.html