庆云古诗词

庆云古诗词

OpenAI 公司在中国申请 GPT4 商标;美团:2022 年新业务分部收入同比增长 39.3% 至 592 亿元;腾讯游戏亮相 2023 游戏开发者大会

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

openai和chatGPT什么关系,openai的服务在您所在的国家不可用,openai和微软的关系,openai api key获取

大公司:

美团:2022 年新业务分部收入同比增长 39.3% 至 592 亿元

36 氪获悉,美团发布 2022 年第四季度及全年财报。财报显示,2022 年美团核心本地商业经营利润达 295 亿元,同比增长 57%;新业务分部收入同比增长 39.3% 至 592 亿元,经营亏损收窄至 284 亿元。2022 年第四季度,新业务分部收入同比增长 33.4% 至 167 亿元,经营亏损同比收窄 32.0% 至 64 亿元。截至 2022 年底,美团无人机已在深圳和上海实现落地,航线覆盖 18 个社区和写字楼,可为近 2 万户居民服务。

腾讯游戏亮相 2023 游戏开发者大会

36 氪获悉,当地时间 3 月 20 日 -3 月 24 日,"2023 游戏开发者大会 " 于美国旧金山召开,腾讯等中国头部游戏厂商参会。在大会上,腾讯游戏共参与 18 场深度分享,覆盖 AI、游戏引擎、渲染、音频设计等诸多领域,其中多项技术已位于世界前列。

海马汽车:与丰田汽车(中国)签署《关于在氢燃料电池汽车研发与产业化领域开展战略合作的框架协议》

36 氪获悉,海马汽车公告,与丰田汽车(中国)投资有限公司签署《关于在氢燃料电池汽车研发与产业化领域开展战略合作的框架协议》,将海南岛整体作为一个大型体验测试场,在公司第三代氢燃料电池汽车上搭载运用包括日本丰田第二代 Mirai 电堆在内的成熟部件及系统,完成整车适应性开发,并结合公司自建的氢能供应体系及出行网络实施测试;争取于 2023 年投入小批量(200 台)开展示范运营,并于 2025 年规划 2000 台运营规模。

产业链人士:闻泰科技拿到三星 2023 年 4500 万部 ODM 产品订单

日前,消费电子产业链流传闻泰科技拿到三星 2023 年 ODM ( 原始设计制造 ) 订单。记者从产业链人士处获悉,近日,闻泰科技与三星签订 4500 万部 ODN 产品订单,预计 2023 年下半年交付。订单包括两个项目,其中一个为 2500 万部手机 ODM 产品订单,另一个为 2000 万部平板电脑 ODM 产品订单。闻泰科技是三星供应商。(中证网)

麦当劳中国启动再生农业计划

36 氪获悉,麦当劳中国宣布启动 " 麦当劳中国再生农业计划 "。参与计划的供应商包括:泰森、嘉吉、圣农、辛普劳、麦肯、蓝威等九大供应商。麦当劳中国每年采购食材近 300 种,其中超过 2/3 的采购量由这九家供应商提供。该计划将在 2023-2028 年的第一阶段内将采取四大行动,包括:推广与普及麦当劳中国再生农业的理念、推动麦当劳中国再生农业的升级试点等。

OpenAI 公司在中国申请 GPT4 商标

36 氪获悉,天眼查 App 显示,近日,欧爱运营有限责任公司(OPENAI OPCO, LLC)申请注册 1 枚 "GPT-4" 商标,国际分类为科学仪器,当前商标状态为申请中。此前,该公司还申请注册了一枚国际分类为网站服务的 "WHISPER" 商标。

前字节跳动视觉技术负责人王长虎离职创业,新公司聚焦生成式 AI

前字节跳动视觉技术负责人王长虎将于近期从龙湖集团离职,王长虎离职后即将组建新的创业团队,他的创业方向将聚焦于生成式 AI 的视觉多模态算法平台。王长虎曾任字节跳动 AI Lab 总监,主要技术方向包括计算机视觉,视频理解和机器学习等。据官方介绍,王长虎在 2017 年初加入字节跳动,完整参与了抖音和 TikTok 等视频类产品从 0 到 1 的建设和发展。(界面)

支付宝首页新增 " 看一看 " 入口,过去半年生活号账号数增长超 10 倍

36 氪获悉,近日,支付宝首页新增了 " 看一看 " 卡片,用户点击后会跳转至生活频道播放视频。此前,生活号已经打通了生活频道、首页搜索等多个核心公域位置,帮助商家获得更多曝光和内容转化的机会。支付宝生活号运营负责人透露,过去半年生活号入住账号数增长超 10 倍,日均作品上传量涨幅超 300%,已经成为商家、机构在支付宝经营的主要阵地。

投融资:

吉利旗下远程汽车据悉寻求在美国 IPO 前融资 3 亿美元

市场消息:吉利旗下远程汽车据悉寻求在美国 IPO 前融资 3 亿美元。(新浪财经)

" 叠溪科技 " 完成种子轮 300 万融资

36 氪获悉,专注中国 - 东非贸易的跨境出海科技公司 " 叠溪科技 " 完成种子轮 300 万融资。本轮投资主要来自行业关联方,将用于业务模型扩大验证和海外团队建设。

LG 新能源将继续推进去年暂停的美国建厂计划,投资增至近 56 亿美元

韩国最大电池制造商 LG 新能源公司(LGES)周五表示,将投资 7.2 万亿韩元(约合 55.8 亿美元)在美国亚利桑那州建设一家电池厂,重启去年因经济形势不利而暂停的这一项目。在周五宣布恢复该项目之前,LG 新能源在 1 月份表示,其一直在与特斯拉及其他电动汽车初创公司进行 " 积极讨论 ",以从拟议中的工厂为他们供应电池。(新浪财经)

新产品:

京东云首次发布数智平台 " 优加 "

36 氪获悉,日前,京东云 2023 品牌增长峰会在上海举行,都市丽人、伽蓝集团、LVMH、林清轩等品牌嘉宾分享实践经验。会上,京东云锚定 DaaS 新赛道,发布开放的数智平台优加,以及 1+3+N 全景图。该平台定位于全场景、全渠道、一体化,融合京东大数据能力、 智能算法、系统软件工具,面向品牌增长。

华为:基本实现芯片 14 纳米以上 EDA 工具国产化

在日前华为举行的硬、软件工具誓师大会上,华为轮值董事长徐直军表示,华为芯片设计 EDA 工具团队联合国内 EDA 企业,共同打造了 14nm 以上工艺所需 EDA 工具,基本实现了 14nm 以上 EDA 工具国产化,2023 年将完成对其全面验证。(人民日报)

第四范式类 GPT 产品 " 式说 " 新增多模态及企业级 【【微信】】 能力

36 氪获悉,第四范式发布了全新升级的 " 式说 "(4Paradigm SageRA),在原有生成式对话能力的基础上,加入了文本、语音、图像、表格、视频等多模态输入及输出能力,并增加了企业级 【【微信】】 能力。利用企业级 【【微信】】 能力,式说可以与企业内部应用库、企业私有数据等进行联网,对信息和数据进行分析,回答员工的问询或执行相关任务,成为业务助手。

今日观点:

欧洲科技业:微软在云计算垄断问题上须做更多调整

日前,投诉者之一、德国软件开发商 Nextcloud 公司表示,微软对欧盟委员会的反垄断投诉所做出的回应措施是不够的,该公司还需要采取进一步的调整举动。据了解,之前,欧洲的云计算服务商向欧盟委员会投诉微软有关 " 操作系统*自家云计算服务 " 的垄断问题,欧盟委员会正在商讨是否展开正式的反垄断调查。(新浪科技)

小米:2022 年智能手机业务收入为 1672 亿元,全年智能手机平均销售单价达 1111 元创历史新高

36 氪获悉,小米发布 2022 年业绩报告。财报显示,小米 2022 年智能手机业务收入为 1672 亿元,全球智能手机出货量为 150.5 百万台,全年智能手机平均销售单价达 1111 元,创历史新高;第四季度智能手机业务收入为 367 亿元,全球智能手机出货量为 32.7 百万台。2022 年,IoT 与生活消费产品收入为 798 亿元;互联网服务收入达 283 亿元。第四季度,IoT 与生活消费产品收入为 214 亿元;互联网服务收入达 72 亿元。

其他值得关注的新闻:

证监会发布《关于进一步推进基础设施领域不动产投资信托基金(REITs)常态化发行相关工作的通知》

36 氪获悉,据证监会官网,证监会发布《关于进一步推进基础设施领域不动产投资信托基金(REITs)常态化发行相关工作的通知》。此次《通知》共提出 4 方面 12 条措施,进一步推进 REITs 常态化发行工作。分类调整了产权类、特许经营权类项目的收益率以及保障性租赁住房项目首发资产规模要求,推动扩募发行常态化,支持优质保险资产管理公司等开展 ABS 及 REITs 业务,加强二级市场建设。


gpt语言 gpt技术是搜索技术吗


图片来源@视觉中国

文 | 牛透社,作者|巩周周

又一次,GPT-4 敛住所有老牌科企的光彩。

在 ChatGPT 被誉为范式转变之作的第 3 个月,谷歌推出 【【微信】】 视觉语言模型 (VLM)。功能上,除去让 AI 获得理解文字、图片的能力外,额外增添了输出指令生成机器人行动计划的控制回路。

谷歌显然急了。在 OpenAI 和微软的左右夹击下,他直接甩出大招。

这场相似的戏码他太熟悉。移动互联网时代的手机系统之战,以操作系统起家的微软没能在智能手机发展初期抓住生态切入点,败北后起新秀谷歌安卓。如今,紧锣密鼓研发大模型的谷歌被后起之浪 OpenAI 的突然成功打了个措手不及。

但即使谷歌发布出参数量高达 5620 亿、目前世界上最大的视觉语言模型 (VLM) 【【微信】】,也没能挡住 GPT-4 打破戈尔迪之结。

回溯 2015 年,马斯克和山姆·奥特曼大概谁都不会想到,OpenAI 这家非盈利组织能够十年内追平谷歌的技术进展,撞破 AI 核心技术巨头垄断格局。GPT 的先发公测且开源底层平台也意味着更多更广的技术会以此为基础进行开发,这是个稳赚的开端。

任何成功的背后都是复杂的,自然语言处理技术跨越了三个阶段,到现在终于迎来变革。接下来,你会从当下回到过去,看到:

1. 自然语言处理的两次重要转折

2. Bert 和 GPT 模型的应用差异及成因

3. GPT 没有出现在中国的两个原因

4. 科技发展是技术在前应用在后

5. 自然语言处理:AGI 最重要的基础

我们把时间线拉到 20 年前——

2003 年,Yoshua Bengio 正式提出神经网络语言模型 (Neural Network Language Model,NNLM),而 NNLM 依赖的核心概念就是词向量 (【【微信】】)。

如果说 GPS 是物理世界的位置符号,那么 【【微信】】 是语言世界的距离符号。

2010 年,【【微信】】 (谷歌团队) 对 Bengio 提出的 NNLM 进行改进,提出 RNNLM (Recurrent Neural Network based Language Model),目标是利用所有上文信息来预测下一个词语。

但 RNN 存在长距离梯度消失问题,上下文记忆能力有限,很难追溯更远时间的信息。而且,只通过孤立单词或上文信息不足以让机器感知到特定环境下的单词含义。

于是,2013 年 Mikolov (谷歌团队) 提出 【【微信】】,他们把这个方法称作“单词到向量”。【【微信】】 的目标不再专注于建模语言模型,而是利用语言模型学习每个单词的语义化向量。

在 1986 年出版的《并行分布式处理》里有谈过这样的观点:“人类比当今的计算机更聪明,是因为人的大脑采用了一种更适合于人类完成他们所擅长的自然信息处理任务的基本计算架构,例如,‘感知’自然场景中的物体并厘清它们之间的关系......理解语言,并从记忆中检索上下文恰当的信息。”

研究人员想到,如果能够把每个词汇都标注为数字,以编码形式输入,那么编码器网络就可以通过反向传播在这些样本上训练。但是,一个非常重要的问题是,机器无法像人类一样获取单词或短语之间的语义关系。

语言学家约翰·费斯在 1957 年把这一思想表达为:你会通过与一个单词一同出现的词来认识它。比如生气往往和愤怒出现在同一语境,大笑和愉悦也常被放在同一语境。

研究人员“词汇表”发现在使用大量英文语料训练词向量后,queen 和 king 的词向量做差得到的向量与 woman 与 man 做差得到的向量几乎一样。于是得到一个等式:【【微信】】+man=woman

这就是著名的“国王和女王”的例子,也是自然语言处理向理解语言进步的重要标志。

word2vec,包含 CBOW 和 【【微信】】 两组模型,分别根据上下文预测中心词以及根据中心词来预测上下文,简化网格结构。使用 Hierarchical Softmax、Negati【【微信】】 两种算法提升训练效率,优化词向量和语义方面能力。

在对机器进行词语、对话或是理念传达时,不同的语言使用方式和环境密不可分,因此,要消解机器对于模糊词、隐喻等困惑,构建机器对世界的认知系统,数据和模型在这种体系中格外重要。

当单词可以用坐标作为数字输入时,就大大提高了神经网络在 NLP 中的性能。RNN 语言模型虽然也能获得单词的分布式表达,但为了更好应对词汇量的增加、提高分布式表示的质量,word2vec 很快成为主流。

再把时间线拉到 5 年内——

2017 年,谷歌团队在论文《【【微信】】d》中首次提出的 Transformer 架构,造就了一场关乎 NLP 研究的始发性变革。

深度学习时代,自然语言处理准确率的提升带来模型对有标注数据的高度依赖。因为数据稀缺和人力成本高昂,大型 NLP 语言模型训练进入瓶颈。

Transformer 预训练模型主要分为两段训练,先在大规模未标注语料库预先训练一个初始模型,然后在下游任务中利用标注数据对模型再次进行精调。相对而言,预训练模型效能更高,所需标注数据也更低。

很快,预训练语言模型成为自然语言理解任务中的基准模型。

GPT 和 BERT,这两个代表现代 NLP 技术发展的模型都建立在 Transformer 架构上。谷歌团队把这个语言架构浓缩成一句话:“【【微信】】d.”

2018 年 10 月,谷歌团队发布的 Bert 语言模型让这项技术从理论走向实用的蜕变。

这是 NLP 一场全领域的狂欢。同时也预示着自然语言处理有史以来最强烈的一次进化即将开启。

在过往许多研究 AI、NLP、AGI 技术的书籍中都提到过一个词,叫“意义的障碍”。机器和人类间存在着交流沟渠,所以创造出一种让机器理解人类写作、说话方式的能力进而协助人类,是 NLP 的初衷。

人类拥有的能力之一,是感知并反思自己的思维方式,即透过现象以某种本质深刻的方式来理解周围情景,机器并不具备这种理解能力。NLP 的目标就是让机器在理解语言上像人类一样智能,弥补人类交流 (自然语言) 和计算机理解 (机器语言) 之间的差距

但语言这种具象表达方式,从标引符号演变为象征符号,再演变为语法,是个漫长的过程。自然语言是一种“活着”的语言,它在不断在向前演进、生长。从过去到现在,有许多俚语不断被淘汰,又有许多词语生成出来。基于此,这种可以择世生存的自然语言处理技术研发变得相当困难。

在 Bert 发布前,大部分 NLP 任务是基于 word2vec+RNN 的基本架构。由于数据匮乏,NLP 进展一直不像 CV 那么顺利,于是有些学者就将基于 CV 的思想应用到预训练+微调的架构上,ELMo 和 GPT 就是采用这种方式。

Bert 在两个方向进行创新。首先提出两阶段模型,第一阶段双向语言模型预训练,第二阶段具体任务 Fine-tuning;其次特征提取器变为 Transformer。几乎所有的 NLP 任务都可以采用 Bert 两阶段训练思路,所以此后的几年,几乎所有企业都在以 Bert 为基础进行改进,研发方向的转折也就此开始。

从自然语言角度出发,自然语言处理大致可分为自然语言理解和自然语言生成两个部分。

自然语言理解:让计算机能够理解文本意义,核心是“理解”。具象来说,就是把语言表示成可分解的符号或语音,从中提取有用的信息用于下游任务。研究方向包含语言结构、信息抽取、信息检索、词性标注和句法分析。

自然语言生成:它是按照一定语法和语义规则生成自然语言文本、图表、音视频,即对语义信息以人类可读形式进行表达,简单来说是从文本规划到语句规划再到实现。主体分为三大类,文本到文本 (Text to Text)、文本到其他 (Text to Other)、其他到文本 (Other to Text)。

以 BERT 和 GPT 为例,即使都属于预训练模型,但在技术研发方向存在分流

BERT(Bidirectional Encoder Representations from Transformers)

双向语言模型,可以同时利用上下文信息进行预测,是自然语言理解任务中的基准模型。Transformer 的 Encoder 模块构成,采用预训练和微调两阶段模型训练,属于半监督学习模型,即在预训练时使用大量无标注数据,属于自监督训练,而微调时采用少量有标签数据,属于有监督训练。

Bert 的预训练包含掩码语言模型 (Masked Language Model, MLM) 和下一句预测 (Next Sentence Prediction, NSP) 两个任务,引入基于自编码的预训练任务进行训练。

这种训练方式让 BERT 可以有效捕捉文本中的语义信息,因此被广泛用于文本分类任务,如机器翻译、情感分析、垃圾邮件识别、新闻分类、问答系统、语义匹配等方向。

GPT (Generati【【微信】】)

单向语言模型,自回归语言建模方式,两段训练:生成式预训练+判别式任务精调。

第一阶段,利用大规模数据训练出基于深层 Transformer 的语言模型;第二阶段,在通用语意表示的基础上,根据下游任务特性进行领域适配。微调通常是在一个较小的数据集上进行的,因此可以使用较小的学习率和少量的训练迭代次数来进行训练。

单向训练方式只能利用之前的文本进行预测,因此适用于自然语言生成、问答系统、机器翻译等任务。

表征和表达能力上,相对单向语言模型 (GPT),双向语言模型 (Bert) 能力更强。因为单向语言模型中,只能依赖于前词,而无法获取后词信息,在处理复杂自然语言任务时,可能会由于无法充分捕捉上下文信息,影响模型的性能。反之,双向语言模型优势明显。

但是,BERT 的双向性增强了它的理解能力,但在一定程度上限制了生成能力,相较于单向模型仅通过上文即可进行续写生成,双向模型在缺乏下文语境时的生成能力受限。对整个句子进行双向处理,也意味着模型较大,训练和推理时间长,所需计算资源和存储空间更多。GPT 在简化程度、训练及推理速度上更快,更加适用于实时性要求高的场景。

相对于 GPT 这种单向语言模型,BERT 的双向语言模型虽然存在缺点,但在实际应用中更加灵活和具有表达能力,也更容易迁移和扩展。在模型研发方面,BERT 更注重模型的可复用性和通用性,适用于多种自然语言处理任务的应用。

研发上,BERT 引入了 Transformer Encoder 的网络结构,用于对输入的序列进行编码;而 GPT 则采用 Transformer Decoder 的网络结构,用于生成自然语言文本。

模型复杂度方面,BERT 比 GPT 的模型架构更加复杂,训练方式上,Bert 需要在自定义数据上进一步微调,相比之下,BERT 来说更加复杂和繁琐。

“梅须逊雪三分白, 雪却输梅一段香。”总的来说,BERT 和 GPT 两者各有千秋,设计和应用方向的差别,决定它们适用于不同应用环境。

Bert 语言模型提出后的一年内,涌现了许多对其进行扩展的模型,其中包含 XLNet 模型、RoBERTa 模型、ELECTRA 模型等。并且,大多数 NLP 子领域研发模式切换为:预训练+应用微调/应用 Zero 、Few Shot Prompt 模式。

XLNet 模型

使用 Transforner-XL 代替 Transformer 作为基础模型,XLNet 提出了一个新的预训练语言任务:Permutation Language Modeling (排列语言模型),模型将句子内的词语打乱顺序,从而使得预测当前词语时可以利用双向信息。XLNet 相对 BERT 也使用了更多的语料。

RoBERTa 模型

RoBERTa 采用了与 BERT 具有相同的模型结构,同样采用了屏蔽语言模型任务进行预训练,但舍弃了 BERT 中下句预测模型。此外,RoBERTa 采用了更大规模的数据和更鲁棒的优化方法,从而取得了更好的表现。

GPT目前已经发布五代,从 GPT-3 代起与 Bert 逐渐拉开差距。实际上,它不仅仅是一项具体的技术,更多是体现出关于 LLM 的发展理念的不同。

ChatGPT 是从生成式预训练 Transformer,即 GPT-3.5 在文本和代码的混合语料训练后,再微调得到的,使用了来自人类反馈的强化学习 (RLHF) 技术,即带有搜索启发式的强化学习,它将两种目的紧密结合,用以解决复杂的搜索问题,也是目前大型 LLM 与人类意图较匹配的方法。

反观自然语言处理的发展史,谷歌的模型升级更迭贯穿始终,竞争力较强,但 DeepMind 一直以来的重心在强化学习和 AI 技术方面,在生成式模型研发押注不够。

以往,GPT 的可商用场景不明确,但 Bert 的商用趋势却十分明显,因此语义理解精准度一直是领域发展重点,国内外大部分企业也是以 Bert 模型路线进发。尽管谷歌反应够快,2022 年 4 月便发布出 PaLM 和 Pathways,全力追赶 LLM 技术,但仍是入局尚晚。

经不完全统计,我国自然语言处理布局目前有 52 家,大部分布局重心在前端,即应用端,虚拟人、智能语音、翻译及基于 NLP 技术的 RPA 这几类发展较为靠前。科技所谓技术在前、应用在后,在我国似乎体现不明显。

不过,不只是我国,谷歌尚且在 LLM 上落后一线,这只能说明在之前的研发理念上存在分歧。目前来看,百度、阿里、华为、讯飞等企业的大语言模型研发能力存在潜力,数据、技术积淀上在国内有相对优势。

我国在发展新技术时往往会首先看商用化可行性,这与国内创业环境有关,包含医药研发在内,几乎所有领域都会考虑短线收益,这种方式并不适合新技术的产生。

从整体走向局部,从应用走向基础,着眼算力、芯片、框架逻辑、理念意识才是关键。决定技术进展的往往是基础力,弯道超车无异于拔苗助长,于核心技术进展无益。

GPT-4 出现让自然语言处理社团分成两股:相信 AGI 和不信的。

进入大模型时代,范式改变给 NLP 带来内核上的转变,许多独立存在的子领域被纳入 LLM,不再独立存在,LLM 热度空前。

2 月 25 日,OpenAI 萨姆·奥特曼在博客中分享其对 AGI 的当前和后续规划,以及 OpenAI 驾驭 AI 的风险。

他的短期计划是使用 AI 来帮助人类评估更复杂模型的输出和监控复杂系统;长期计划是使用 AI 来帮助提出新的想法以实现更好的对齐技术。他认为,一个错位的 AGI 可能会对世界造成严重伤害,一个拥有决定性超级智能领导的专制政权也可以做到这一点。

在微软 3 月发布的长篇报告中,微软说:“考虑到 GPT-4 功能具有的广度和深度,我们认为可以合理地认为它是通用人工智能 (AGI) 系统的早期(但仍不完善的)版本。”

不过,他们也承认,“虽然GPT-4 ‘对处理许多任务而言达到或超过人类的水’,但其整体‘智能模式显然不像人类’。所以,大致来讲,即使它确实表现出色,但仍然不能完全像人类一样思考。”

微软提到了一个词——“思考”。

有许多哲学家认为,即使通过图灵测试的机器也不会实际上思考,而只是对思考的模拟。

斯坦福大学教授克里斯托弗·曼宁在 2017 年提出:到目前为止,深度学习已经使得语音识别和物体识别的错误率大幅下降,但其在高级别的语言处理任务中并没有产生同等效用。

人类语言往往依赖于常识及对世界的理解,要机器处理更高级别的语言任务。就要让它完全理解人类语言,具备人类的常识和无意识行为。目前的 LLM 还很难做到。

不过,20 世纪 90 年代,发明家、未来学家雷·库兹韦尔发现这样一个规律:一旦技术变得数字化,或者它可以被编辑为以 0 和 1 表示的计算机代码,它就能够脱离摩尔定律的束缚,开始呈指数级加速发展。

简单来说,技术发展后的产物会被用来加速产物升级,这就创造了一个正反馈循环。根据该理论,技术改良以过去的成就为基础,每十年革新步调就会加倍。

传说西塔发明了国际象棋而使国王十分高兴,他决定要重赏西塔,西塔说:“我不要你的重赏 ,陛下,只要你在我的棋盘上赏一些麦子就行了。在棋盘的第 1 个格子里放 1 粒,在第 2 个格子里放 2 粒,在第 3 个格子里放4粒,在第 4 个格子里放 8 粒,依此类推,以后每一个格子里放的麦粒数都是前一个格子里放的麦粒数的 2 倍,直到放满第 64 个格子就行了”。区区小数,几粒麦子,这有何难,“来人”,国王令人如数付给西塔。计数麦粒的工作开始了,第一格内放 1 粒,第二格内放 2 粒第三格内放 2’ 粒,&【【微信】】;还没有到第二十格,一袋麦子已经空了。一袋又一袋的麦子被扛到国王面前来。但是,麦粒数一格接一格飞快增长着,国王很快就看出,即便拿出全国的粮食,也兑现不了他对西塔的诺言。

独立指数技术加速浪潮,已经开始呈现出与其余独立指数技术加速浪潮融合的趋势。比如,自然语言处理技术的加速发展,不仅仅是因为 NLP 或 LLM 的单项技术,还因为 AI、深度学习、神经网络等正加速发展的技术在向这个范围靠拢。

2000 年,互联网创始人提姆·伯纳斯-李提出“语义网”概念。他希望建立一个“本体”为基础的、具有语义特征的智能互联网,不仅能够理解语义概念,还能够理解之间的逻辑。突破单句限制,根据整个动态交互过程中的语义和语境的变化情况,对用户实时输入的语句进行处理并生成结果,是实现语义网的基础。

正常的发展逻辑是首先通过解决语义表达,让计算机利用对现有信息的经验积累和理解,上升到更深层次。这也意味,AI 时代,语义处理会成为操作系统的核心,所有软件技术都会基于语义技术的进展而确立上限。

语言处理的进展,目前主要通过大数据和模型框架及训练模式的互补和变化来构建。数据存在歧义性。LLM 时代,数据成为重要核心,机器在进行词语、对话或理念传达时,使用环境和使用方式可以左右最终成果。因此,要消解机器对于模糊词、隐喻等困惑,构建机器对世界的认知系统,人,在这种体系中格外重要。