openai 一张图看懂gpt-4新变化 openai公布gpt-4

互联资讯 2023-05-21 14:56:03 0

2023年11月20日每日一猜答案：。答案：ABC。
每日一猜答案分析：

openai和chatGPT什么关系,openai chatgpt,openai是马斯克的吗,openai api收费标准

日前，OpenAI 创始人山姆・奥特曼（Sam Altman）表达了对于 ChatGPT 和 GPT-4 的担忧，AI 模型的内容生成能力、以及取代人类工作的潜力让他 " 有点害怕 "。他说，人类历史上的几次技术革命，确实让社会工种发生了很大变化，有些工作甚至彻底云消雾散。

但他同时表示，人类仍然是劳动力的重要组成部分，旧的岗位消失、新的岗位源源不断，我们总能找到新工作。因此，ChatGPT 只是人类的工具，而不是人类的替代品。

图 | OpenAI 创始人山姆・奥特曼（Sam Altman）（来源：资料图）

不过，鉴于 ChatGPT 越来越擅长写代码，奥特曼也在担心它是否会被用于网络攻击或大规模炮制虚假信息。尽管 ChatGPT 在很大程度上可以被人为控制，但他认为保不齐会有人用它来做坏事。所以，面对 ChatGPT 以及其他 AI 工具可能产生的负面影响，留给人们作出合宜处理的时间并不多。

当 ChatGPT 面对不该做的任务，它必须拒绝

在 OpenAI 负责研究 AI 政策的桑德希尼・阿加瓦尔（chatgpt）说：" 我们还有很长的路要走。这个模型仍然很有偏见。是的，ChatGPT 非常擅长拒绝不好的请求，但它也很容易被提示所误导，以至于它没能拒绝我们希望它拒绝的东西。"

OpenAI 声称，其安全测试已经足以让 GPT-4 用于第三方应用程序，同时它也做好了迎接突发事件的准备。OpenAI 首席科学家伊利亚・苏斯克弗（Ilya Sutskever）告诉《麻省理工科技评论》，大语言模型仍然存在根本性的缺陷。

GPT-4 依然会产生带有偏见、虚假和仇恨的内容；它仍然可以被越狱，躲开 OpenAI 设置的保护措施。尽管 OpenAI 改进了它，但还算不上 100% 地成功。

要知道，实现大模型的安全性并不是一蹴而就的，而是一个逐步前进的过程。而且只要 GPT-4 解锁了新能力，在安全防控上就会更加复杂。就连苏斯克弗也认为：" 尽管很多情况已经被摸清楚，但我相信其中仍藏着一些令人惊讶的东西。" 他甚至觉得放慢新成果的发布速度可能会更好。

此外，在 OpenAI 内部有一支对齐团队――对齐指的是通过引导人工智能系统的行为，使其符合设计者的利益和预期目标。对齐团队的负责人简・莱克（JJan Leike）告诉《麻省理工科技评论》，当用户的提问不够清楚时，ChatGPT 就应该追问，此外它还应该澄清自己只是一个人工智能系统。

也就是说，ChatGPT 不应该假设自己拥有一个不该拥有的身份，也不应该声称自己拥有其实并不拥有的能力。当用户要求它做一个不该做的任务时，它必须拒绝。

（来源：资料图）

OpenAI 新目标：避免 ChatGPT" 胡编乱造 "，让其生成更多元的内容

在人工智能语言模型研究中，最大的问题之一是如何阻止模型 " 产生幻觉 "，说得更接地气一点就是如何阻止模型 " 胡编乱造 "。ChatGPT 已经被上亿用户使用了几个月，尽管有时也会产生谎言和幻觉，但还不至于太离谱。

这是因为 OpenAI 在 ChatGPT 中使用了一种名为 " 从人类反馈中强化学习 " 的技术，它会基于用户反馈改进答案。该技术的工作原理是让人们在不同的输出内容中进行选择，然后根据不同的标准进行排序，比如事实性和真实性。

为了使 ChatGPT 更可靠，OpenAI 一直在清理数据集，并删除那些会让模型产出错误内容的训练数据。自从 ChatGPT 发布以来，人们一直试图对它进行 " 越狱 "，也就是使用一些 " 技巧 " 让模型打破束缚自己的规则，从而产生有关种族主义或阴谋论的内容。

OpenAI 已经注意到一些用户的尝试。目前，OpenAI 已经浏览了整个数据库，挑选出了一些会导致不必要内容的提示，以对模型做出改进并阻止它继续蔓延下去。

另外，OpenAI 也会从公众那里收集更多反馈，以便更好地塑造模型。目前，OpenAI 正在探索通过用户调查或建立公民集会（论坛）的方式，来讨论哪些内容应该被完全禁止。例如，如果以艺术为前提，*可能不会被认为是粗俗的、不可接受的，但如果在非艺术类课堂上使用 ChatGPT 生成*图片就是另外一回事了。

尽管 OpenAI 正在使用数据标注人员的人工反馈来迭代模型，但是这些员工的反馈并不能很好地代表更广泛、多元的世界。因此，该公司希望扩展这些模型所代表的观点和视角。

为此，它开展了一个更具实验性的项目，名为 " 共识项目 "。在这个项目中，OpenAI 正在研究用户对于 ChatGPT 所产生内容的同意或不同意的程度。

举例来说，相比 " 天空是否是蓝的 " 这样的单一维度问题，人们可能会对 " 税收是否是好事 " 这类问题产生更加多元的回答。而 OpenAI 希望通过一定的训练，让 ChatGPT 可以代表不同的视角和世界观。因此，人们或许可以用它来生成符合自己观点的答案，而不是一刀切的答案。

对于 GPT-4 的核心秘密，OpenAI 为何 " 守口如瓶 "？

很多人都已经知道，ChatGPT 使用的是 GPT-3.5 的一个微调版本。而在最近，GPT-4 ――一种多模态大型语言模型也已经横空出世。

使用 GPT-4 时，它可以同时对文本和图像给出回应。比如当你打开冰箱，拍一张番茄的照片然后发给它，问它用番茄能做什么菜，这时 GPT-4 就会尝试制作和番茄相关的食谱。它也很擅长解释笑话，如果你给它看一个表情包，它能向你解释里面有什么有趣的梗。

目前 GPT-4 仅开放给 ChatGPT Plus 的付费用户，要么就是以 API 开发者的身份加入等待名单。并且，当前所有用户都只能使用文本模式。

作为业内同行，开源大语言模型 BLOOM 背后的联合创始人托马斯・沃尔夫（Thomas Wolf）说，一款优秀的多模态大模型一直是诸多大型技术实验室所追求的目标。理论上，文本和图像的结合可以让多模态模型更好地理解世界。但是，GPT-4 仍然难遥不可及。不过，沃尔夫认为 GPT-4 或许能解决传统语言模型的弱点比如空间推理的难题。

根据 OpenAI 的说法，GPT-4 之所以比 ChatGPT 表现更好，是因为它是一个拥有更多参数的大模型。在 OpenAI 之前的模型迭代中，参数的增加是一个重要趋势。

参与开发 GPT-4 的工程师雅库布・帕乔基（Jakub Pachocki）告诉《麻省理工科技评论》：" 这个基本公式多年来并没有发生太大改变。但这就像建造一艘宇宙飞船，你需要把所有小部件都做好，并确保没有一个会损坏。"

比如，GPT-3 的性能优于 GPT-2，因为它的参数量是 1750 亿，而 GPT-2 的参数量只有 15 亿，两者相差 100 多倍。

对于 GPT-3，OpenAI 创始人奥特曼此前曾告诉《麻省理工科技评论》："GPT-3 是人们第一次真正感受到一个系统的智能。GPT-3 可以做人类所做的事。我认为，这让那些以根本不相信通用人工智能的人开始认真对待它，并在之后发生了一些我们都没有预料到的事情。"

如果说 GPT 的前几代都是科研成果的话，GPT-4 更像一个成熟的产品。同时，GPT-4 也是 OpenAI 有史以来最神秘的新成果发布，标志着 OpenAI 从非营利性研究实验室全面过渡到营利性公司。

但是 OpenAI 这次并未透露 GPT-4 的参数量，不过奥特曼曾表示 GPT-4 是迄今为止 OpenAI 最大的模型。

同时，OpenAI 也并不打算公布 GPT-4 到底好在哪里。GPT-4 发布之后，《麻省理工科技评论》与其开发团队进行视频电话时，OpenAI 首席科学家伊利亚・苏斯克弗（Ilya Sutskever）表示：" 你知道，有些事我们现在还不能评论。外面到处都是竞争对手。"

关于这一话题，正在看同类项目的投资人非常有发言权。投资公司 Tola Capital 的联合创始人希拉・古拉蒂（Sheila Gulati）说：" 对大多数公司来说，创建类似规模的模型的成本是无法承受的，但是 OpenAI 采用的方法让初创公司非常容易接入大型语言模型，这将促进基于 GPT-4 的巨大创新。"

除了不公布参数量之外，OpenAI 也没有透露 GPT-4 的构建方式，更没有透露所使用的数据和算力。

这让作为同行的沃尔夫不禁吐槽："OpenAI 现在成了一家完全封闭的公司，所做的科学交流也越来越类似新产品的新闻稿。" 不过这似乎也可以理解，毕竟 OpenAI 已经变成盈利性公司，自然要通过技术保密来维护利益。

北京智源研究院院长黄铁军教授认为："OpenAI 成立的时候是开放的，只不过为了训练大模型必须有很多资金的投入，但是他并没有放弃开放的梦想。目前可能是比较现实的选择。"

但 OpenAI 也并非绝对地守口如瓶，在 GPT-4 所使用的技术上，它也做了一定的透露。其表示，通过使用与 ChatGPT 相同的方法，即借助于人类反馈的强化学习技术，GPT-4 实现了诸如在律考中取得高分成绩、以及识别梗图等功能。

在运用基于人类反馈的强化学习技术时，OpenAI 会要求真人评分者对模型的不同反应进行评分，以此来提升 GPT-4 的输出质量。而且上一代 GPT 也使用了这款技术，因此这并不是一个 " 秘密武器 "。

另外，OpenAI 还使用反向方法来让 GPT-4 进行自我改进，即让它产生可能会导致偏见、不准确的或者攻击性的回复，然后再借此修复模型，以便让它以后可以自行拒绝这种输入。

虽说 GPT-4 的表现可圈可点，但也并非没有竞品，比如 DeepMind 也有一款大模型 Flamingo；法国公司 Hugging Face 也正在开发一种开源的多模态模型，预计将免费提供给用户。

因此虽说已经遥遥领先，但可以看出 OpenAI 颇有如临大敌之感。面对这样的竞争环境，OpenAI 并没有把 GPT-4 当成一项研究成果，而是作为一次新产品的试水。也正因此，在官宣 GPT-4 的博客文章里，OpenAI 特意展示了 GPT-4 的几个应用案例，比如用于多邻国软件的语言学习、用于冰岛政府的语言保护等。

支持：Ren

参考资料：

https://www.chatgpt.com/2023/03/【【QQ微信】】/chatgptbetter-chatgpt-openai/

https://www.chatgpt.com/2022/12/【【QQ微信】】/chatgpttion-art/

https://www.chatgpt.com/2023/03/03/【【QQ微信】】/chatgptstory-how-chatgpt-built-openai/

https://www.chatgpt.com/2023/02/2【【QQ微信】】/chatgpt-to-make-chatgpt-safer-and-less-biased/

https://abcnews.go.com/Technology/videchatgpt-ai-reshape-society-97949497

https://www.chatgpt.com/2022/12/【【QQ微信】】/chatgptssons-from-dall-e-2/

GPT-4 剑指多模态，前有谷歌 PaLM-E，AI 格局要变？

内容一览：GPT-4 犹如一记核弹，在 3 月 14 日引爆了整个科技圈。在这场核爆的中心，万众瞩目的 GPT-4 狂秀肌肉，而在核爆的外围，谷歌等众神虎视眈眈，动作不断。

关键词：GPT-4 谷歌多模态模型

本文首发自 HyperAI超神经微信公众号~

美东时间 3 月 14 日，OpenAI 重磅推出大型多模态模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天机器人背后的技术基础。OpenAI 称，GPT-4 能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已表现出人类水平。

OpenAI 发布 GPT-4

GPT-4 此次更新，主要有三个飞跃式提升的新特性：文字输入限制提升、具备识图能力以及更强的推理能力。

内容更长更丰富

据 OpenAI 说法，GPT-4 能够处理超过 25,000 个单词的文本。Medium 作家 Michael King 对此谈道，此特性允许创建长篇内容，例如文章和博客，能够为企业和个人节省时间和资源。

此外，GPT-4 对大量文本的处理使扩展对话成为可能，这意味着，在服务业等行业中，人工智能聊天机器人可以对客户的查询提供更详细、更具洞察力的响应。同时，此特性还能进行高效地文档搜索和分析，从而成为金融、法律和医疗保健等行业的有利工具。

GPT-4 处理文本能力优于 ChatGPT

更具推理能力

OpenAI 表示，GPT-4 生成的答案错误更少，正确性要比 GPT-3.5 高 40%。同时，GPT-3.5 与 GPT-4 在闲聊时差别不大，但若任务够复杂，GPT-4 要比 GPT-3.5 更可靠、更有创意且能处理更多微妙指令。据悉，GPT-4 参加了多种基准考试测试，其中在 Uniform Bar Exam、LSAT 等考试中，得分要高于 88% 的应试者。

「做题家」 GPT-4

亮眼新特性：多模态

除了答题能力更胜一筹之外，GPT-4 另一个亮眼的特性就是可以接受文本和图像形式的输入，图像类型可以是照片、图表以及屏幕截图等。比如以下例子：

问题：这幅图有什么好笑的? 逐条描述它。
GPT-4 回答：该图像显示了一个包含三个图片的「 Lightning Cable 」适配器。
图1：一个智能手机与 VGA 连接器（一个大型，蓝色，15 针连接器通常用于计算机显示器）插入其充电端口。
图2：「 Lightning Cable 」适配器的封装，上面有一个 VGA 连接器的图片。
图3：VGA 连接器的特写镜头，最后是一个小型 Lightning 连接器（用于为 iPhone 和其他苹果设备充电）。
这张图片中的幽默来自于将一个过时的大型 VGA 连接器插入一个小型的现代智能手机充电端口的荒谬性。

GPT-4 分析梗图

需要注意的是，此特性还处于研究者预览版本，并没有对外开放，OpenAI 尚未透露开放时间。

「它并不完美」

在介绍 GPT-4 的新功能的同时，OpenAI 也坦言了它的一些局限性。与之前版本的 GPT 一样，GPT-4 仍然存在 social biases、hallucinations 以及 adchatgpt 等问题。换句话说，目前来看 GPT-4 并不完美。但 OpenAI 也表示，这些都是他们正在努力解决的问题。

虽然多模态是 GPT-4 一大亮眼特性，但不得不说，GPT-4 并不是唯一的多模态模型。

微软 AI 技术专家 chatgpt 介绍所谓多模态模型，是其不仅可以将文本相应地翻译成图像，还可以翻译成音频和视频。而早在本月初，谷歌就已发布史上最大的视觉语言模型――PaLM-E (Pathways Language Model with Embodied)，一个可用于机器人的嵌入式多模态语言模型。PalM-E 整合了 540B 的 PaLM 语言模型和 22B 的 ViT 视觉模型，因此具有 562B 参数。

研究人员在多个任务，包括机器人操作规则、视觉问答和图像字幕中等进行了端到端的训练，评估结果表明该模型能够能有效地解决各种推理任务，并在不同的观察模态和多个实体上表现出了「正向转移 (positichatgpt)」，并且该模型除了接受机器人任务训练，还在视觉-语言任务上有出色的表现。

PaLM-E 将传感器与文本输入结合，建立语言和感知连结

展示示例中，当人类发出「把抽屉里的薯片拿给我」的指令时，PaLM-E 可以为一个装有机械臂的机器人生成一个行动命令并执行行动，其通过分析来自机器人摄像头的数据实现，而无需对场景进行预处理。

机器人完成了「把抽屉里的薯片拿给我」的指令

除了赋予机器人以上能力，PaLM-E 本身也是视觉语言模型，可以看图说故事，或者依据图片内容回答问题。

如今看来，整个 AI 领域正在紧锣密鼓地开展军备赛。面对 ChatGPT 的爆火，谷歌紧急发布 Bard 步步紧逼，近日又再次反击，开放自家的大语言模型 API 「PaLM API」，同时还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。

虽然 OpenAI CEO Sam Altman 前不久在接受采访时，仍对 GPT-4 的发布时间保持神秘，宣称「我们要在发布时，确定它是安全且负责任的」，但 GPT-4 这一波突袭，难免让人猜测是否是由于面对谷歌等巨头不断地反击和围剿，迫使它的步伐加速。

需要注意的是，Sam 采访中还谈到一个观点，人工智能的下一个进化阶段正是多模态大模型的到来。「我认为这将是一个大趋势...更普遍的是，这些强大的模型将成为真正的新技术平台之一，这是自移动平台以来我们没有拥有过的。」

此次 GPT-4 的重磅发布，是否标志着多模态模型时代正式到来，尚需要时间证明，但其强大的能力已经开始让很多开发者甚至普通人担忧自己是否会被其取代。这一点，或许微软德国 chatgpt 几天前的公开言论可以作为答案，她认为当前 AI 发展就像当年「iPhone 出现」，同时，她也明确表示这不是要取代工作，而是要以与以前不同的方式完成重复性任务。

「变革会使得传统的工作模式发生变化，但我们也应该看到，这种变化增加了很多新的可能性，因此，也会出现让人兴奋的新职业。」

参考链接：

【【网址】】/【【淘密令】】/gpt-4

[2]https://chatgpt.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

[3]https://palm-e.github.io/

[4]https://medium.com/@neonforge

本文地址： https://www.528683.com//show-411923.html