庆云古诗词

庆云古诗词

学习语言模型的基础知识 语言深度训练模型有哪些

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

语言模型训练方法,语言模型公式,语言模型plug,语言模型训练

了解当代大型语言模型背后的设计、约束和演变,你可以遵循本文的阅读清单。

大型语言模型已经引起了公众的注意,短短五年内,Transforme等模型几乎完全改变了自然语言处理领域。此外,它们还开始在计算机视觉和计算生物学等领域引发革命。

鉴于Transformers对每个人的研究进程都有如此大的影响,本文将为大家介绍一个简短的阅读清单,供机器学习研究人员和从业者入门使用。

下面的列表主要是按时间顺序展开的,主要是一些学术研究论文。当然,还有许多其他有用的资源。例如:

  • Jay Alammar撰写的《The Illustrated Transformer》
  • Lilian Weng撰写的《The Transformer Family》
  • Xachatgpt撰写的《Transformer models: an introduction and catalog ― 2023 Edition》
  • Andrej Karpathy写的nanoGPT库

对主要架构和任务的理解

?如果你是Transformers、大型语言模型新手,那么这几篇文章最适合你。?

论文1:《Neural Machine Translation by Jointly Learning to Align and Translate》

论文地址:https://arxiv.org/pdf/1409.0473.pdf

本文引入了一种循环神经网络(RNN)注意力机制,提高了模型远程序列建模能力。这使得RNN能够更准确地翻译较长的句子――这也是后来开发原始Transformer架构的动机。?

图源: https://arxiv.org/abs/1409.0473

论文2:《Attention Is All You Need》

论文地址:https://arxiv.org/abs/1706.03762

本文介绍了由编码器和解码器组成的原始Transformer架构,这些部分将在以后作为单独模块进行相关介绍。此外,本文还介绍了缩放点积注意力机制、多头注意力块和位置输入编码等概念,这些概念仍然是现代Transformer的基础。

论文3:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

论文地址:https://arxiv.org/abs/1810.04805

大型语言模型研究遵循最初的Transformer架构,然后开始向两个方向延伸:用于预测建模任务(如文本分类)的Transformer和用于生成建模任务(如翻译、摘要和其他形式的文本创建)的Transformer 。?

BERT论文介绍了掩码语言建模原始概念,如果你对这个研究分支感兴趣,那么可以跟进RoBERTa,其简化了预训练目标。?

论文4:《Improchatgptnding by Generative Pre-Training》

论文地址:https://www.semanticscholar.org/paper/Improchatgptnding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

最初的GPT论文介绍了流行的解码器风格的架构和通过下一个单词预测进行预训练。BERT由于其掩码语言模型预训练目标,可以被认为是一个双向Transformer,而GPT是一个单向自回归模型。虽然GPT嵌入也可以用于分类,但GPT方法是当今最有影响力的LLMs(如chatgpt)的核心。?

如果你对这个研究分支感兴趣,那么可以跟进GPT-2和GPT-3的论文。此外,本文将在后面单独介绍InstructGPT方法。?

论文5:《BART: Denoising Sechatgpte-training for Natural Language Generation, Translation, and Comprehension》

论文地址 https://arxiv.org/abs/1910.13461.

如上所述, BERT型编码器风格的LLM通常是预测建模任务的首选,而GPT型解码器风格的LLM更擅长生成文本。为了两全其美,上面的BART论文结合了编码器和解码器部分。

扩展定律与效率提升

如果你想了解更多关于提高Transformer效率的技术,可以参考以下论文

  • 论文1:《A Surchatgptng of Transformers》
  • 论文地址:https://arxiv.org/abs/2302.01107
  • 论文2:《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》
  • 论文地址:https://arxiv.org/abs/2205.14135
  • 论文3:《Cramming: Training a Language Model on a Single GPU in One Day》
  • 论文地址:https://arxiv.org/abs/2212.14034
  • 论文4:《Training Compute-Optimal Large Language Models》
  • 论文地址:https://arxiv.org/abs/2203.15556

此外,还有论文《Training Compute-Optimal Large Language Models》

论文地址:https://arxiv.org/abs/2203.15556

本文介绍了700亿参数的Chinchilla模型,该模型在生成建模任务上优于流行的1750亿参数的GPT-3模型。然而,它的主要点睛之处在于,当代大型语言模型训练严重不足。

本文定义了用于大型语言模型训练的线性scaling law。例如,虽然Chinchilla的大小只有GPT-3的一半,但它的表现优于GPT-3,因为它是在1.4万亿(而不是3000亿)token上进行训练的。换句话说,训练token的数量和模型大小一样重要。

对齐――将大型语言模型朝着预期的目标和兴趣引导

近年来出现了许多相对强大的大型语言模型,它们可以生成真实的文本(例如GPT-3和Chinchilla)。就常用的预训练范式而言,目前似乎已经达到了一个上限。

为了使语言模型更能帮助到人类,减少错误信息和不良语言,研究人员设计了额外的训练范式来微调预训练的基础模型,包括如下论文。

  • 论文1:《Training Language Models to Follow Instructions with Human Feedback》
  • 论文地址:https://arxiv.org/abs/2203.02155

在这篇所谓的InstructGPT论文中,研究人员使用了RLHF(Reinforcement Learning from Human Feedback)。他们从预训练的GPT-3基础模型开始,并使用监督学习对人类生成的提示响应对进行进一步微调(步骤1)。接下来,他们要求人类对模型输出进行排序以训练奖励模型(步骤2)。最后,他们使用奖励模型通过近端策略优化(步骤3)使用强化学习来更新预训练和微调的GPT-3模型。

顺便说一句,这篇论文也被称为描述chatgpt背后思想的论文――根据最近的传言,chatgpt是InstructGPT的扩展版本,它在更大的数据集上进行了微调。

  • 论文2:《chatgpt: Harmlessness from AI Feedback》
  • 论文地址:https://arxiv.org/abs/2212.08073

在这篇论文中,研究人员进一步推进了对齐的想法,提出了一种创建「harmless」的AI系统的训练机制。研究人员提出了一种基于规则列表(由人类提供)的自训练机制,而不是直接由人类监督。与上面提到的InstructGPT论文类似,所提出的方法使用了强化学习方法。

总结

本文对上方表单的排列尽量保持简洁美观,建议重点关注前10篇论文,以了解当代大型语言模型背后的设计、局限和演变。

如果想深入阅读,建议参考上述论文中的参考文献。或者,这里有一些额外的资源,供读者进一步研究:

GPT的开源替代方案

  • 论文1:《BLOOM: A 176B-Parameter Open-Access Multilingual Language Model》
  • 论文地址:https://arxiv.org/abs/2211.05100
  • 论文2:《OPT: Open Pre-trained Transformer Language Models》
  • 论文地址:https://arxiv.org/abs/2205.01068

chatgpt的替代方案

  • 论文1《LaMDA: Language Models for Dialog Applications》
  • 论文地址:https://arxiv.org/abs/2201.08239
  • 论文2:《Improchatgptgue agents via targeted human judgements》
  • 论文地址:https://arxiv.org/abs/2209.14375
  • 论文3:《BlenderBot 3: a deployed conchatgpt continually learns to responsibly engage》
  • 论文地址:https://arxiv.org/abs/2208.03188

计算生物学中的大型语言模型

  • 论文1:《 ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Superchatgpt 》
  • 论文地址:https://arxiv.org/abs/2007.06225
  • 论文2:《Highly accurate protein structure prediction with AlphaFold》
  • 论文地址:https://www.nature.com/articles/s41586-021-03819-2
  • 论文3:《Large Language Models Generate Functional Protein Sechatgpt Families》
  • 论文地址:https://www.nature.com/articles/s41587-022-01618-2

原文链接:https://【【淘密令】】.com/blog/2023/llm-reading-list.html



硅谷银行和瑞信会引发金融危机吗 瑞信与硅谷银行

nemofi硅谷银行,硅谷银行市值,硅谷金融科技公司,硅谷银行上海办事处

全球金融系统正遭遇一场严重的先硅行然信下信心危机。

一切始于加密货币贷款机构Silchatgpt (SI)的后瑞倒闭,随后蔓延到硅谷银行母公司、先硅行然信下风险资本最青睐的后瑞Schatgpt (SIVB),后来和加密货币有关联的先硅行然信下Signature Bank (SBNY)也倒闭了。现在,后瑞这场信心危机蔓延到了“全球系统重要性银行”瑞士信贷(CS)。先硅行然信下

瑞信登上新闻头条后,后瑞银行股再次受到冲击。先硅行然信下全球金融危机暴发前,后瑞瑞信ADR价格达到75美元以上的先硅行然信下峰值,进入2023年时约为3美元,后瑞周三收盘下跌14%,先硅行然信下至2.16美元。后瑞其他欧洲银行股也大幅下挫:法国兴业银行(GLE.法国)下跌12%,先硅行然信下德意志银行(DB)下跌8.6%,瑞银集团(UBS)下跌6.3%。美国大型银行股也未能幸免:摩根大通(JPM)下跌5%,高盛(GS)下跌4%,摩根士丹利(MS)下跌5%。

人们不由得要问:硅谷银行是一家规模为2120亿美元、存款基础集中度很高的地区性银行,它的倒闭是如何牵连到瑞信和全球银行系统的?

硅谷银行和瑞信似乎没有太多共同之处。硅谷银行是一家美国地区性银行,而瑞信是一家全球性银行。截至2022年底,瑞信资产负债表上的资产价值约为5300亿瑞士法郎(约合5750亿美元),是硅谷银行的两倍多。瑞信是美联储20多家一级交易商之一,国际清算银行金融稳定委员会将其视为全球系统重要性银行,也就是“大到不能倒”的那类银行。在传统银行业务的基础上,瑞信还在几个大洲开展投资银行、财富管理和其他业务。

但瑞信自身也存在很多问题。近年来,瑞信一直是欧洲银行业中问题最多的银行,该行在2010年代中期的垃圾债交易中蒙受巨亏,遭受过Archegos Capital Management爆仓和Greensill Capital倒闭的双重冲击,更换过几位首席执行官和董事长等等。这些问题带来的后果是,仅去年第四季度客户存款流失就超过1100亿瑞士法郎。

瑞信最新的转型计划是将业务重心从投行业务转向财富管理,同时全面削减成本。该行已同意把证券化产品部门出售给阿波罗全球管理(Apollo Global Management),并表示可能剥离美国投行业务瑞信第一波士顿(Credit Suisse First Boston)。去年秋天,瑞信从由沙特国家银行(Saudi National Bank)牵头的投资者那里为转型筹集了资金。重组需要花钱,并给现金流带来压力,2021年瑞信每股收益为2.32美元,2022年每股亏损2.77美元,分析师预测2023年每股亏损0.31美元。

周二,瑞信称2021年和2022年财务报告中存在“重大缺陷”,周三,有消息称沙特国家银行不打算向瑞信提供更多资本,要把持股比例保持在10%以下,这些是瑞信股价最近一轮下跌名义上的导火索。但瑞信股价的下跌似乎早就在欲酿之中,就等着这样的时刻到来了。“这样的时刻”指的就是硅谷银行破产引发的担忧,人们对瑞信转型计划的讨论转向了更加不详的问题上。

和硅谷银行一样,客户存款流失给瑞信的流动性带来压力,转型成本也是一个压力来源,这两个因素削弱了瑞信偿还短期负债的能力,即便该行整体资产负债情况仍符合监管要求。一个令人担心的问题是,如果存款继续外流,瑞信可能不得不出售长期资产,这就是硅谷银行倒闭的原因――过去一年美联储加息导致其资产负债表上债券的价值下降,许多资产被亏本出售。

和硅谷银行破产后的情况一样,各国监管机构和政府现在面临找到解决办法、防止爆发更严重的信心危机或风波在全球银行系统蔓延的压力。

管理咨询公司Opimas首席执行官奥克塔维奥・马伦齐(Octachatgpt)说:“现在看来瑞士央行(SNB)将不可避免地介入为瑞信提供‘生命线’,瑞士央行和瑞士政府充分意识到,如果瑞信破产、或者储户蒙受任何损失,瑞士作为金融中心的声誉将被摧毁。”

当地时间周三晚间,瑞士央行和瑞士金融市场监管局(FINMA)表示,如有必要,将向瑞信提供流动性。

虽然硅谷银行和瑞信各自存在特有的问题,而且这些问题不会影响到其他大多数银行,但二者存在一个共同的根本问题:银行依靠信心来维持业务。银行业务模式的核心就是从一方借钱再借给另一方,只要两方不会有很多人同时要求获得自己的资金,银行的资产负债表就不会出现什么问题。

正如过去一周人们所看到的,事态升级速度会非常快。有关客户提款的传言或报道会促使更多人提款,引发银行挤兑,并创造出一个“自我实现的预言”,尤其是对于那些已经存在问题、流动性或盈利能力下降的银行。这让人想起欧内斯特・海明威(Ernest Hemingway)在《太阳照常升起》中写的:“你是怎么破产的?”“有两种方法。一种是逐渐破产,另一种是突然破产。”(How did you go bankrupt? Two ways. Gradually, then suddenly.)

当投资者对一两家银行的信心出现动摇时,他们就会战战兢兢地寻找下一个潜在受害者,进而推低所有银行股的价格。这正是现在正在发生的事情。

凯投宏观(Capital Economics)首席欧洲经济学家安德鲁・肯宁汉(Andrew Kenningham)说:“瑞信的问题再次引发了这样一个问题:这是一场全球性危机的开端,还是又一个‘个案’?这已经是几个月来出现的第三个所谓‘一次性’问题,前两个分别是去年9月英国国债市场危机和上周美国地区性银行倒闭,因此,认为今后不会出现其他问题的想法是愚蠢的。”

现在,要想防止当前这场信心危机演变为一场全面的金融危机,就看监管机构会怎么做了。

(本文内容仅供参考,投资建议不代表《巴伦周刊》倾向;市场有风险,投资须谨慎。)

本文来自微信公众号 “巴伦周刊”(ID:barronschina),作者:尼古拉斯贾辛斯基,36氪经授权发布。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:【【网址】】/news/61b399935.html