open ai机器人试验后来怎么样了人工智能ai之机器学习

淘文章 2023-03-20 21:58:02 0

淘宝搜：【红包到手500】领超级红包，京东搜：【红包到手500】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

本文介绍了 OpenAI 提出的新型机器人模拟训练技术，它可以让机器人控制器完全在模拟环境中进行训练，模拟环境使用动态随机允许模型泛化至现实世界中。

我们提出的最新机器人技术可以让机器人控制器完全在模拟环境中进行训练，然后将其部署在实际机器人上，使机器人能够对环境的未知变化做出反应，就像在解决简单的问题一样。也就是说，我们使用这些技术来创建闭环系统，而不是以往的开环系统。模拟器不需要在外貌形态或者动态变化上与现实世界完全匹配；相反，我们把环境相关的各方面都随机化了，从摩擦力到动作延迟，再到传感器噪声。我们最新的结果提供了很多证据，证明通用目标的机器人完全可以在模拟环境中进行训练，只需要后续在实际环境中做少量的自标定（self-calibration）即可。

图中是一个在动态随机（dynamics randomization）情况下进行模拟训练的机器人，它的任务是把一个定标器推到目标点。尽管在真实世界中，研究人员把定标器上放在装满芯片的袋子上，改变了定标器的滑动属性，但机器人仍然在没有经验的情况下完成了目标。

动态随机

我们开发出了动态随机的方法来训练机器人适应未知的现实世界变化。在训练过程中，我们随机抽取一组 95 个属性来定义环境动态，比如改变机器人身体各个部分的质量；改变机器人进行训练使用物体的摩擦力和阻尼（damping）；物体所在桌子的高度；动作之间的延迟；观察结果中的噪声等。

我们用这个方法训练了一个基于 LSTM 的策略来把定标器在桌子上推来推去。我们设计的前馈网络在执行这个任务的时候失败了，但是 LSTM 能够利用过去的观察结果来分析环境的动态变化，并相应地调整自己的行为。

从视觉到行动

我们还使用强化学习的方法在模拟环境中训练了一个机器人端到端的模型，并且将得到的策略部署在实际机器人上。所构建的系统能够在不使用特殊传感器的情况下将视觉直接映射到动作上，并且能够适应视觉的反馈。

这是从机器人摄像头的视角看到的场景。捡起方块的策略是使用从视觉到动作的端到端模型来训练的，使用的是随机化的视觉。需要注意的是，在模拟中，机器人抓手会随着方块的下滑而略微上移，以将方块保持在期望的位置。在实际环境中，因为方块不会滑动，所以抓手不会做出这样的动作。

仿真机器人中大量的强化学习结果使得强化学习似乎能够解决大多数机器人任务。但是常见的强化学习算法仅在动作受到较小扰动的任务中运转良好，扰动较小给奖励函数带来增量式的变化。但是大多数任务并不是这样的。为了给「堆箱子」定义一个密集的奖励函数，你需要对以下信息进行编码：机械臂靠近方块、机械臂沿着正确的方向靠近方块、方块被举起并离开地面，以及方块到达期望位置的距离等等。

我们花费了几个月的时间来尝试让传统的强化学习算法在捡起-放下的任务上起作用，但是都失败了，直到最后我们开发了一个新的强化学习算法：事后经验回放（Hindsight Experience Replay，HER），该算法可以让智能体从二元奖励中学习，即假装任务失败就是想要的结果，然后从中学习到相应的东西。（举个例子，你想找的是加气站，但最后找到了披萨店。尽管你还是不知道去哪找加气站，但是你已经学到了如何去披萨店。）我们还在视觉形状中使用域随机化（domain randomization）来学习一个足够鲁棒的视觉系统来适应现实世界。

HER 的实现使用了不对称信息的 actor-critic（演员-批评家）技术。演员是一个策略，批评家是一个接受动作/状态对并估计它们的 Q 值（或未来奖励）的网络，它给演员提供训练信号。批评家有权限访问模拟器的所有状态，而演员只能访问 RGB 值和深度数据。所以批评家能够提供完全准确的反馈，而演员只能使用现实世界展示出来的数据。

成本

这两种方法都增加了对计算量的需求：动态随机将训练速度降低了三倍，而从图像（而非状态）中学习的方法则将速度降低了 5 到 10 倍。

ai智能软件技术自制ai人工智能系统

ai智能软件有哪些,写小说的ai智能软件,ai软件下载手机版,小猫ai智能软件

【本站】3月10日消息，OpenAI将推出一系列工具，让用户能够更好地控制生成式人工智能系统，这是由该公司的首席执行官山姆・阿尔特曼在摩根士丹利大会上宣布的。这家公司将专注于开发一个向外部出售API的平台，并创建像ChatGPT这样的杀手级应用。据Similarweb的测算，自去年11月发布以来，ChatGPT的访问量已经超过10亿。OpenAI推出了收费档ChatGPT服务，为每月支付20美元费用的用户提供更可靠的服务。

阿尔特曼表示，该公司正在与企业客户合作训练特定领域的模型，并有效地减少了“幻觉”。所谓幻觉是指即使答案是错误的，人工智能系统仍然会自信地向用户提供这一答案。管理咨询公司贝恩已经与OpenAI达成全球合作关系，因此能够将人工智能嵌入其客户服务。与OpenAI合作的企业可以使用自己的数据与一个模型副本配合使用，从而减轻了数据安全方面的担忧。

据本站了解，阿尔特曼补充说，个人用户也可以对人工智能的使用方式施加更多的控制。该公司已经在开发升级版ChatGPT，使用户能够对其进行定制，以解决可能存在的人工智能偏见问题。他说：“我们将很快推出更多服务，让用户对系统施加更多控制，使其执行此操作或那项操作。”

阿尔特曼承认，人工智能系统不可能100%准确，但他预计，包括AI律师和AI医生在内的应用很快就会出现在人们的手机上。

本文地址： https://www.528683.com//show-396723.html