openai最新研究进展 open ai的技术是共享的么

互联资讯 2023-04-28 09:48:04 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

openjoven研究,openai项目,openchannelssd研究方向,open science journal

保险起见，意大利当局已经暂时禁止了 ChatGPT 的使用。法国、德国、爱尔兰和加拿大的数据监管机构也在调查 OpenAI 的这款应用如何收集和使用数据。欧洲数据保护委员会，也正在建立一个覆盖全欧盟的特别工作组，以协调围绕 ChatGPT 的调查和执法。

意大利已要求 OpenAI 在 2023 年 4 月 30 日之前遵守相关法律。这将意味着 OpenAI 必须征求人们的同意，才能收集他们的数据，或者证明它在收集这些数据方面具有“正当利益”。OpenAI 还必须向人们解释 ChatGPT 是如何使用他们的数据的，并让他们能够纠正聊天机器人产生的任何错误。如果用户要求的话，就必须删除他们的数据，还可以反对计算机程序使用它。

如果 OpenAI 不能让当局相信其数据使用实践是合法的，它可能会在特定国家甚至整个欧盟被禁止。法国数据保护机构 CNIL（Commission Nationale de l'Informati【【微信】】és）的人工智能专家亚历克西斯・莱奥蒂埃（Alexis Leautier）说，该公司还可能面临巨额罚款，甚至可能被迫删除模型和用于训练它们的数据。

英国纽卡斯尔大学的互联网法律教授莉莉安・爱德华兹（Lilian Edwards）说，OpenAI 的违规行为非常明显，这个案件很可能最终会提交到欧盟法院，即欧盟最高法院。我们可能需要数年时间才能看到意大利数据监管机构提出的问题的答案。

高风险游戏

对于 OpenAI 而言，这场博弈游戏的赌注已高的不能再高了。欧盟的通用数据保护条例是世界上最严格的数据保护制度，并已在世界各地被广泛复制。从巴西到美国加州，世界各地的监管机构都将密切关注接下来会发生什么，这一结果可能从根本上改变人工智能公司收集数据的方式。

除了要求其数据实践更加透明之外，OpenAI 还必须证明，它收集其算法训练数据的时候使用了两种合法方式之一：征得同意或“正当利益”。

OpenAI 似乎不太可能辩称，它在搜集人们的数据时获得了他们的同意。这就意味着，它只能尝试“恰当利益”这条辩护之路。爱德华兹说，这可能需要该公司向监管机构提出令人信服的理由，说明 ChatGPT 十分重要，以至于可以在未获得许可的情况下收集用户数据。

OpenAI 告诉我们，它相信自己遵守了隐私法规，并在一篇博客文章中表示，在可行的情况下，根据要求从训练数据中删除个人信息。该公司表示，其模型训练所用的数据是可公开获得的内容、授权内容和由人类评论者生成的内容。但对于像 GDPR 这样的数据保护法来说，这个门槛太低了。

爱德华兹说：“美国有一种原则，即当这些东西出现在公共场合时，它就不再是私人的。但这根本不是欧洲法律的运作方式。”GDPR 赋予人们作为“数据主体”的权利，比如被告知他们的数据是如何被收集和使用的，以及将他们的数据从系统中删除的权利，即使这些数据一直都是公开的。

大海捞针

OpenAI 还有另一个问题。意大利当局表示，OpenAI 在“后训练阶段”收集用户数据的方式并不透明，比如在他们与 ChatGPT 互动的聊天日志中。

“真正令人担忧的是它如何使用你在聊天中给出的数据，”莱奥蒂埃说。人们倾向于与聊天机器人分享亲密的私人信息，告诉它自己的精神状态、健康状况或个人观点。莱奥蒂埃指出，如果 ChatGPT 存在将这些敏感数据消化并发送给他人的风险，这就是有问题的。他补充说，根据欧洲法律，用户需要能够删除他们的聊天数据。

曾担任谷歌人工智能伦理联合负责人的 Hugging Face 首席科学家玛格丽特・米切尔（Margaret Mitchell）说，OpenAI 将发现几乎不可能从训练数据中找到个人数据并将其删除。

她说，该公司本可以从一开始就建立稳妥的数据记录，从而让自己避开一个巨大的麻烦。但与之相反，在人工智能行业，人们通常通过不加选择地抓取网络数据，然后将重复或无关数据的删除、过滤不必要的东西、修复拼写错误等工作外包，来为人工智能模型构建数据集。这些方法，以及数据集的庞大规模，意味着科技公司往往对哪些数据训练了他们的模型掌握得非常有限。

谷歌的前研究科学家、研究人工智能数据实践的企业家尼希亚・桑巴西万（Nithya Sambasivan）说，科技公司不记录他们如何收集或注释人工智能训练数据，甚至也不知道数据集中的内容。在 ChatGPT 庞大的训练数据集中找到意大利数据就像大海捞针一样。即使 OpenAI 成功地删除了用户的数据，也不清楚这一操作是否会是永久的。研究表明，数据集在被删除后很长一段时间都会留在互联网上，因为原始数据的副本往往会在网上传播。

米切尔说：“数据收集的技术非常、非常不成熟。”这是因为大量工作都集中在为人工智能模型开发尖端技术上，而数据收集方法在过去十年几乎没有改变。米切尔说，在人工智能社区，人工智能模型的重要性被过分强调，甚至是以牺牲其他一切为代价：“机器学习领域存在一个文化上的问题，数据被视为愚蠢的工作，模型被视为真正的工作。”

桑巴斯万对此表示赞同：“总的来说，数据工作需要更多的合法性。”

支持：Ren

原文：

【【网址】】/2023/04/【【QQ微信】】/【【微信】】ata-is-coming-back-to-bite-it/

openai ceo sam altman 最新精彩访谈 ai智能模型直观展示

openai是哪个公司的,openai api key获取,openai是马斯克的吗,openai chatgpt

今年最新推出的 GPT-4 可以视为是 OpenAI 乃至全行业中最为先进的模型之一，据 Wired 报道，GPT-4 可能是使用数万亿个文本单词和数千个强大的计算机芯片训练而成，这一过程耗资超过 1 亿美元。

在这一点上，微软此前在官方博客上也曾分享过内幕：

微软将上万颗英伟达 A100 芯片连接到一起，并重新设计了服务架构，这使得 OpenAI 能够训练出越来越强大的 AI 模型，同时，也帮助自家解锁了 Bing、Edge 等工具的 AI 功能。这个项目已经花费微软数亿美元。

不过，当下 Sam Altman 表示，AI 技术进一步的进展将不会来自于将模型做大。"我认为我们正处于巨型模型时代的尽头，最终我们将以其他方式使它们变得更好。"

事实上，自从 OpenAI 在 11 月推出 ChatGPT 以来，微软已经使用底层技术为其必应搜索引擎添加了一个聊天机器人，Google 也推出了一个名为 Bard 的大模型，以及百度推出了「文心一言」、阿里内测了「通义千问」等等。

与此同时，包括 Anthropic、AI21、Cohere 和 Character.AI 在内的众多资金雄厚的初创公司，正在投入巨大的资源来构建越来越大的算法，希望努力追赶上 OpenAI 的技术。

Sam Altman 的最新声明表明，GPT-4 可能是 OpenAI 将模型做大并向其提供更多数据的战略中出现的最后一个重大进展。

在最新分享中，他也并没有说什么样的研究策略或技术可能取代它。不过，在此前 GPT-4 技术细节的论文中，OpenAI 研究团队倒是说过，根据预估，扩大模型规模的回报将会越来越少。Sam Altman 也曾表示，OpenAI 能够建造多少个数据中心以及建造这些中心的速度也有物理限制。

二、扩大模型的规模并不能永远奏效

其实回看 GPT 系列模型，参数真的是一个比一个大：

2019 年发布的 GPT-2，有 15 亿参数；

2020 年发布的 GPT-3，有高达 1750 亿个参数；

GPT-3.5 模型的参数量为 2000 亿；

在考虑到竞争格局和大型模型的安全影响之际，OpenAI 宣布不再对外公开最新的 GPT-4 模型参数，不过，通过上文提及到的训练 GPT-4 花费超过 1 亿美元的金额，也不难猜测出其规模之庞大了。

不过，模型并非参数越大越好，也并非一味地关注模型参数就是一件好事。对于这样的观点，其实也有不少专家持以赞同的态度。

据 Wired 报道，曾在谷歌从事人工智能工作的 Cohere 公司联合创始人 Nick Frosst 表示，Altman 的扩大规模并不能永远奏效的观点听起来是对的。他也认为，Transformer（GPT-4 及其竞争对手的核心机器学习模型类型）的进展超出了扩展范围。

在 Nick Frosst 看来，「有很多方法可以让 Transformer 变得更好、更有用，而且很多方法不涉及向模型添加参数。新的人工智能模型设计或架构，以及基于人类反馈的进一步微调，是许多研究人员已经在探索的有希望的方向。

Altman 在上周也回应称，OpenAI 目前没有，而且在一段时间内也不会有开发 GPT-5 的计划。最后，对于追求参数量的大模型即将接近尾声，你怎么看？

本文地址： https://www.528683.com//show-404298.html