庆云古诗词

庆云古诗词

ChatGPT可以让AI语音助手,变得更聪明吗?

淘文章 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

c talk语音助手,ch语音app

可能使用过AI语音助手的用户都有过类似的感受,即这类语音助手似乎并不是特别智能。那么,近期引发互联网圈、科技圈热烈讨论的【【微信】】,是否可以为AI语音助手这一形式带来新的可能,让它们变得更加“聪明”?一起来看看作者的分析和解读。

AI 语音助手的「蠢」,好像全世界都知道。

不管是 Siri 还是小爱同学,大部分使用过所谓「AI 语音助手」的用户大概都同意,它们肯定不算聪明。尤其是在 【【微信】】 出来之后,这种对比尤为明显,甚至包括微软的最高话事人也在批评自家的语音助手。

微软 CEO 萨蒂亚・纳德拉最近在接受英国《金融时报》采访时表示,苹果的 Siri、亚马逊的 Alexa,微软自家的 【【微信】】(中文名:小娜)以及公认拔尖的 Google Assistant,这些语音助手有一个算一个:

都笨得跟石头一样。

2014 年 4 月,纳德拉刚刚上任微软 CEO 两个月后的微软 Build 开发者大会上,微软全球副总裁乔北峰正式推出了 【【微信】】。在最初的几年,【【微信】】 表现了不俗的智能,也受到包括纳德拉在内微软高层的集体认可,纳德拉在 2016 年还称赞 【【微信】】 的智能,并说「机器人是新应用」。

但 【【微信】】 的智能(横向比较)和市场份额越来越糟糕,到 2021 年微软就正式宣布停止支持 iOS 和 Android 上的 【【微信】】 应用,仅保留对 【【微信】】 平台的支持。

更重要的是,OpenAI 带着 【【微信】】 来了,微软直接拿到了 AI 时代目前为止最好的一张船票。与此同时,语音助手在过去几年基本陷入了停滞,Siri 的联合创始人 Adam Cheyer 也承认,【【微信】】 理解复杂信息的能力让现有的语音助手看起来很蠢。

但换句话说,如果能在语音助手上实现类似 【【微信】】 理解复杂信息的能力,Siri 和小爱同学是不是就能重获新生?

至少很多人已经开始尝试了。

【【微信】】 出现后不久,互联网上其实就有了一大堆的新想法,声量最大的一个是改变「搜索」,如今已经成为了搜索引擎巨头的共识,微软必应已经在测试,谷歌和百度也提前进行了预告。而另一方面,也有不少人在惊叹于 【【微信】】 的自然语言沟通能力之余,期望会推出语音助手版本的 【【微信】】,替代掉目前不堪一「谈」的语音助手。

在今年又一轮爆发之后,尽管我们还是没看到 OpenAI 或者微软推出对应的语音助手版,但已经有开发者进行了大量的尝试。

xiaogpt,图/GitHub

在全球最大的代码托管平台 Github 上,就有开发者尝试将 【【微信】】 接入小爱同学,Star 数已经达到了 1.3k。据项目介绍,只要有 【【微信】】 的账号、小爱音箱、正常连接 【【微信】】 的网络以及 python 3.8+,人人都可以在小爱音箱上使用「【【微信】】 版小爱同学」。

原理上很简单,唤起小爱同学后,以「帮我」开头询问的问题会自动以文本形式发送一份给 【【微信】】,同时会屏蔽小爱同学原本的回答,替换成「正在问 GPT,请耐心等待」,而 【【微信】】 生成的文本则会被小爱同学通过 TTS(语音合成技术)进行语音回答。

从开发者的演示显示,整个过程足够流畅,实际回答也远超小爱同学原本的「智力」。(具备条件可搜索 GitHub 项目「xiaogpt」)

不仅是小爱同学,另一位更为大众调侃的「智障」语音助手――Siri,实际上更早就被开发者尝试接入 【【微信】】。

围绕 Siri 其实有不少尝试,其中国内开发者@Yue-Yang 最近就以「快捷指令」形式连接了 Siri 和 【【微信】】,让 Siri 变成真正的 AI 聊天机器人。在 GitHub 或者「小众软件」上你都能找到对应的快捷指令――智能聊天,不过使用条件是需要申请 OpenAI 的付费 API。

「【【微信】】 Siri」在原理上与「xiaogpt」类似,利用 OpenAI 的 API(应用程序接口)和 iOS 的特性,先将语音指令转换为文本再传递给 【【微信】】,收到回答后再让 Siri「读」出来。在 B 站上,通过搜索「【【微信】】 Siri」可以查看对应的演示。

【【微信】】 Siri,图/GitHub

当然,以上两个项目都是个人开发者的尝试,也包括其他类似的项目,不管是使用体验还是上手门槛,都并不适合普通用户。考虑到语音助手的技术、产品和生态,大公司的入场很可能降低门槛、提高整体的使用体验。

问题在于意愿和能力,很多公司其实也看到了站在 【【微信】】 的「肩膀」上重新打造语音助手的可能性,但在全球范围内,真正同时手握 AI 能力和语音助手背后生态的公司总共也就那几家。

与搜索一样,【【微信】】 不可能直接取代现有的语音助手。一方面语音交互的优势在于直接、易上手,很多任务通过触控、文字输入等方式不仅繁琐、更耗时间,同时对于老人、小孩等用户也偏于复杂,自然的语音交互则能比较轻松地实现。另一方面,【【微信】】 并不能对现实层面进行直接干预,比如我们用 Siri 或者小爱同学操控空调、扫地机器人等。

【【微信】】,或者说生成式 AI 更大的价值在于通过强大的自然语言理解和沟通能力,来改善语音助手的使用体验。

过去我们总抱怨 AI 太笨,要么答非所问,要么干脆就是「我没有明白」,基本几轮对话就会感到心累,转向对功能性的需求,比如天气、问题查询、智能家居操作等。相反,【【微信】】 的对话能力则基本不用担心,尽管可能会有错误信息,但至少不会像 Siri 和小爱同学那样沟通成本太高。这也是多年的发展停滞之后,语音助手的关键机会所在。

2 月底,微软在推出支持 AI 对话的新必应之后,又支持了 Android 和 iOS 版本,并且在 AI 对话中第一次增加了语音对话功能,用户如果使用语音开启对话,新必应也会使用语音回应。不过就现在而言,新必应的语音对话功能还仅限于对话,并不能用来进行一系列操作,比如在手机上唤起某个系统或应用的功能,也不支持设置为默认的语音助手。

语音功能加入,图/微软

此外,微软自家的 【【微信】】 平台也还未支持,目前为止尚未流出 【【微信】】 或其他新语音助手加入类 【【微信】】 能力的消息。

而更早些时候,小度官方在 2 月初宣布,AI 语音助手小度将在未来融合百度文心一言的全面能力,同时在此基础上还将打造针对智能设备场景的人工智能模型「小度灵机」并应用到小度全系产品。而据小度官方数据,搭载小度的智能设备已经进入了 4000 万户家庭。

当然,按照百度此前的规划,文心一言要在本月才上线测试,距离小度全面接入文心一言的显然还需要一段时间。

另一方面,谷歌也早早看到了这一点。2021 年的 I/O 大会上,谷歌就首次宣布将 LaMDA 大语言模型的对话能力整合入 Goolgle Assistant、搜索和 【【淘密令】】。今年 2 月,谷歌推出了类 【【微信】】 的聊天机器人 Bard 之后,接入 Google Assistant 似乎也是题中应有之义,包括 9TO5Google、《连线》杂志也认为谷歌应该这么做。

就像人人都知道语音助手的「蠢」,所有人也看到了 【【微信】】 让语音助手们至少在理解人类语言和对话上「变聪明」的很大可能。

过去我们都畅想过,有一个数字语音助手可以在日常生活中帮我们解决各种需求,就像《钢铁侠》里的贾维斯,现实是 Siri 和小爱同学们距离听懂人类的话还差很远,充斥着各种「不明白」「听不懂」。

的确,现实世界的技术还赶不上科幻世界的想象很正常,但 【【微信】】 背后强大的对话语言能力,无疑可以让语音助手们能够更流畅地与我们对话,让我们更感觉在对话的是一个「智商在线」的 AI 助手,而非对牛弹琴。而对于智能音箱和智能家居厂商,这也意味着更高的用户粘性和使用率。

更或许,当 AI 越来越聪明并理解人类,智能家居乃至物联网的未来也会随之发生巨变。

作者:雷科技互联网组;编辑:冬日果酱

原文标题:用【【微信】】让Siri和小爱同学不再智障?我看行

来源公众号:雷科技(ID:【【微信】】),聚焦科技与生活。

本文由人人都是产品经理合作媒体 @雷科技 授权发布。未经许可,禁止转载。

题图来自 Unsplash ,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

给作者打赏,鼓励TA抓紧创作!

ChatGPT 如何使用 chatgpt最全使用方法

chatgpt是什么意思,chatgpt国内能用吗,chatgpt账号,chatgpt怎么注册

北京时间3月15日凌晨,OpenAI发布了ChatGPT的最新“升级版本”――GPT4模型,OpenAI在官网表示,GPT4是一个能接受图像和文本输入,并输出文本的多模态模型,是OpenAI在扩展深度学习方面的最新里程碑。

国内可以玩chatGPT可以的吗?可以的。不过需要海外号码以及邮箱进行注册

没有海外号码和邮箱怎么办呢?这里我们可以借助一个网站:【【网址】】

新京报贝壳财经记者浏览OpenAI发布的演示视频发现,GPT4的语言理解和生成能力均超过了ChatGPT,可以解答ChatGPT无法完成的问题,同时GPT4可以描述并理解图片。而在界面上,OpenAI在左侧设置了“系统”面板,让用户可以自定义聊天机器人扮演的角色,这让GPT4在未来可以更加满足用户在个性化方面的需求,在拟人方面“更进一步”。

OpenAI总裁兼联合创始人格雷格・布罗克曼演示GPT4可以完成GPT3.5无法完成的任务 (OpenAI演示视频截图)

GPT4比ChatGPT强在哪?

据了解,火爆全网的ChatGPT最初基于GPT3.5模型,而GPT4的功能超越了GPT3.5,展现出了更加强大的语言理解能力,能够完成一些ChatGPT无法解决的问题。

在演示视频中,OpenAI总裁兼联合创始人格雷格・布罗克曼(Greg Brockman)挑选了一篇文章,并要求ChatGPT将其浓缩成每个单词都以“G”开头的一段话,对此ChatGPT确实对文章内容进行了浓缩,但无法让每个单词都以“G”开头,而GPT4则可以很好地完成这项任务。

此外,GPT4的可接受的文字输入长度也增加到3.2万个token(约2.4万单词),其参加各类职业和学术考试的表现也和人类水平相当,如模拟律师考试取得了前10%的好成绩,相比之下GPT-3.5是倒数10%。

另一重大突破是,GPT4可以认识图片了。

ChatGPT只能通过向其输入文字提问才能生成文字回答,但GPT4可以直接输入图像,并令其用语言描述图像内容。在演示案例中,GPT4就详细描述了布罗克曼发给它的电脑网页截图,甚至精确描述了该截图的中心、左侧和右侧分别是什么内容。

除了描述图片内容外,使用者还可以基于图片向GPT4提其他问题,如布罗克曼在演示中输入了一张拿着照相机的松鼠漫画,并询问GPT4“这张图片好笑在哪?”,GPT4回答,“这张图片展现了一个松鼠拿着照相机,像专业摄影师一样拍摄松果,其笑点在于这实际上只有人类才做得到,松鼠是吃松果的,我们不能指望它像人类一样会用照相机。”

GPT4可以描述漫画图片的“笑点”在哪 (OpenAI演示视频截图)

贝壳财经记者注意到,此项功能如广泛应用,将给视障人士带来极大的便利。布罗克曼表示,目前GPT4的识图功能正在与合作伙伴一起应用于一个名为“做我的眼睛”的项目。

此外,相比ChatGPT默认始终如一的语气,记者注意到OpenAI此次展示的AI聊天界面左侧有一个“系统”选项,用户可以在此指定GPT4的背景设定,如“你是一个程序员”“你是一个报税人员”等,而具体的问题可以在右侧界面提出,GPT4可以结合用户向它定义的角色回答用户提出的问题。

事实上,进行角色扮演是ChatGPT就能够实现的功能,如贝壳财经记者指定ChatGPT扮演“英语老师”并指出记者输入语句的语法错误后,ChatGPT就可以按照要求实现该功能,但如果不总在提问里强调这一“角色设定”,ChatGPT总会忘记其应该扮演的角色。对此,OpenAI的新设置或能避免这一问题。

在可以预见的未来,该功能也将让基于GPT4的聊天机器人更富感情色彩,相比OpneAI在展示视频中给GPT4定义的程序员等角色,用户在实际使用中更倾向于让聊天机器人扮演“男/女朋友”“亲密伙伴”等角色,以填补内心的情感空白,这将在未来让聊天机器人拥有更加广阔的市场和更加复杂的社会意义。

ChatGPT Plus会员才能申请使用 新版必应已应用部分功能

布罗克曼表示,目前GPT4的许多功能正在优化中,面向公众还需一段时间。不过,据微软方面透露的消息,新版必应搜索已经通过GPT4增强了功能。

目前,虽然OpenAI开放了GPT4的API接口,但只有ChatGPT Plus会员才能获得具有使用上限的GPT4访问权限,而其他用户需要排队申请内测。这导致GPT4发布结束后,有大批新订用户涌入OpenAI网站,以至于OpenAI的付款系统被“挤爆了”。

3月15日,贝壳财经记者通过OpenAI进入GPT4的API接口申请页面发现,想加入GPT4的候补名单,需要填写姓名、邮件、公司组织编号以及计划如何使用GPT4等问题。

不过,OpenAI也在官方网站上给出了目前GPT4存在的不足,如其仍然存在包括社会偏见、捏造事实、对抗生成等已知限制。OpenAI对此表示,随着社会对AI模型的接受,将增加透明度,鼓励并促进用户教育和更广泛的人工智能素养,并致力于扩大人们在培养AI模型方面的输入途径。

3月15日,当贝壳财经记者咨询ChatGPT是否了解GPT4时,ChatGPT回答道,“我了解的知识只截至2021年4月,此时还没有关于GPT4的官方公告或发布日期。但预计OpenAI将继续开发和改进其语言模型,这最终可能导致将来发布新版本的GPT。作为一名语言模型,我一直在学习和适应新的数据和技术进步,所以我将继续随着这些发展而发展。”