庆云古诗词

庆云古诗词

“中国版ChatGPT”来了!文心一言和GPT-4哪家强?

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

文心正版,文一心83,文心ait

原标题:“中国版ChatGPT”来了!文心一言和GPT-4哪家强?

本土化大模型是否更适合中国市场,百度迎来“大考”。

3月16日,百度正式发布文心一言。这也意味着,被外界誉为的“中国版ChatGPT”终于来了。

百度李彦宏介绍,内测中的“文心一言”并不完美,但市场有需求必须要推出来。李彦宏介绍,文心一言有五大能力,文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

文学创作方面,文心一言给出了准确且全面的答案。

在现场Demo演示中,李彦宏还演示了文心一言对数理逻辑推算问题的解答。

经过测试,对于第一道题,文心一言经过演算,认为可能是题出错了。对于第二道,文心一言不但给出了正确结果,还详细给出解题步骤。可以看出,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。

李彦宏表示,文心一言已具备了一定的思维能力,能够学会数学推演及逻辑推理这类相对复杂任务。当然,现阶段准确率还不是100%,我们还需要给它更多的时间来学习和成长。

现场Demo中,还演示了文心一言如何作一首藏头诗。

文心一言发布后,并不会向全部用户放开,而是采用内测+邀测形式,据市场不完全统计,目前已经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的400多家头部企业宣布加入百度“文心一言”生态。

百度官方表示,其让文心一言在发布会前写了一封邀请函。

多模态生成方面,文心一言的答卷也很不错。李彦宏表示,多模态是生成式AI一个明确的发展趋势。未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力,也会不断提升。

而在两天前,ChatGPT热度还未散去,其开发商OpenAI就发布了更强大的“王炸”产品。3月14日,人工智能研究公司OpenAI公布了其大型语言模型的最新版本――GPT-4,据报道,该AI在功能和一致性方面取得了前所未有的成果。

当人们还在震惊于ChatGPT对它老前辈AI们的革命性时,OpenAI已经用GPT4革了自己的命,令许多人感慨:“自然语言处理从业者要转行了”、“机器视觉不存在了”。

OpenAI老板Sam Altman直接开门见山地介绍说:

这是我们迄今为止功能最强大的模型!

根据OpenAI官方的介绍,GPT-4是一个超大的多模态模型,也就是说,它的输入可以是文字(上限2.5万字),还可以是图像。

甚至只需要简单在纸上画一个网站的草稿图:

拍一张照片上传给GPT-4,它就可以立马生成网站的HTML代码!

升级之后,GPT-4在各种职业和学术考试上表现和人类水平相当。

比如模拟律师考试,GPT-4取得了前10%的好成绩,相比之下GPT-3.5是倒数10%。

做美国高考SAT试题,GPT-4也在阅读写作中拿下710分高分、数学700分(满分800)。

文字输入长度限制的增加,也大大扩展了GPT-4的实用性。

发布会直播上,OpenAI总裁Gregman现场表演了一波GPT-4给代码修Bug。

出现问题啥也不用想,直接把1万字的程序文档一股脑扔给GPT-4就行。格式也不用管,你只需要Ctrl+A、Ctrl+C、Ctrl+V。

再最后附上出现的问题,在几秒钟内瞬间得到解决办法。

API方面,GPT-4还开放了一个使用功能,允许修改“系统提示”。

之前ChatGPT的回答总是冗长而平淡,这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。

现在通过修改这句话,GPT-4就可以展现出更多样的性格,比如扮演苏格拉底。

早在百度文心一言发布会前,“ChatGPT和百度的文心一言,孰强孰弱?”已经搜索霸榜。

清华大学计算社会科学与国家治理实验室副主任孟天广认为,国内已有多家科技企业拥抱ChatGPT 概念,但目前真正算得上有类似或相关大语言模型业务或研发项目的公司并不多。因此人们对百度率先推出文心一言关注度很高,期待也更高。

据专业人士分析:

文心一言和chatGPT两者都是以语言模型为核心的人工智能平台,但在设计和应用目标方面有所不同。

从平台的设计目标来看,文心一言注重中华文化元素的融入和传承方面。它在中文语料库的训练和优化方面具有优势,能够更好地理解和处理中文语言,为用户提供更有文化内涵的交互体验。同时,文心一言还提供了更多的文化知识和传统文化的介绍,让用户了解更多关于中华文化的知识。

而ChatGPT则注重语言处理的效果和应用场景方面。采用了更加先进的预训练技术和更大的训练数据,ChatGPT在英文自然语言处理方面具有更高的精度和效果。同时,ChatGPT的应用场景也更加广泛,包括机器翻译、问答系统、自然语言生成等多种应用场景。

在应用场景方面,两者的优势也有所不同。文心一言主要应用于中文语言的处理和文化知识的传承,适用于中文用户和需要中文交互的场景。而ChatGPT则更适合处理英文自然语言和多语言场景,并且可以应用于多种应用场景,比如问答系统、语音助手、自然语言生成等。

此外,在用户体验方面,文心一言的交互方式更加接近对话式,能够与用户进行更自然、更流畅的交互,有利于提高用户的满意度和使用体验。而ChatGPT则更注重语言的精度和处理效率,能够更好地满足用户的实际需求。

无论哪种语言模型平台,都将为用户提供更加便捷、智能、高效的语言处理服务,推动人工智能技术的发展和应用。

中国社会科学院信息化研究中心主任姜奇平表示,无论是智能云、智能家居、无人驾驶、还是金融等其他业务板块,文心一言都有非常大的发挥空间。目前,百度智能云已经可以标准化输出AI的底层能力,帮助企业真正降本增效。姜奇平认为,假以时日,若文心一言通过百度智能云提供服务,企业和机构客户可以通过百度智能云的API和基础设施,激发应用端增值创造潜力,显著提高生产力,数实融合、AI普惠会更快实现。

当然,在AI技术发展的初期阶段,可能会遇到各种各样的问题难题,例如AI商业化落地不及预期问题、AI引发的各种法律与伦理问题以及AI导致的行业竞争加剧等风险问题。

业内人士相信,在人工智能公司的努力和推动之下,都能够逐个有所突破,从而开启一个属于中国AI的新时代。

参考资料:

1.《中国版ChatGPT”来了 百度文心一言发布会今日举行》,财联社

2.《百度文心一言正面迎战chatGPT》,知乎,随风飘啊飘

3.《GPT-4发布!ChatGPT大升级!》,量子位

4.其他公开新闻信息返回搜狐,查看更多

责任编辑:



bing chatgpt chatgpt 国内版


作者 | 刘燕

InfoQ 获悉,聆心智能联合清华大学 CoAI 实验室共同发布大模型安全评估框架,迈向可控可信的大模型。

ChatGPT 正在引领人类进入无缝人机交互的新时代,比尔盖茨在接受福布斯采访时也表示,“ChatGPT 的意义不亚于 PC 和互联网的诞生。

不过,当搜索引擎 New Bing 与 ChatGPT 结合,伴随着“ChatGPT 黑化”等一系列舆论事件的发生,人们也开始对人工智能带来的道德、伦理、安全等风险感到恐慌。

虽然近年来随着技术的不断突破,大模型获得了快速发展并开始在各个场景广泛应用,但仍存在着事实性错误、知识盲区和常识偏差等诸多问题,还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。

如何提高模型的准确度和可靠性,使 AI 生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。

对此,清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈认为:“大规模语言模型(LLM)发展到现在,模型结构和规模已经有了很大的进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。

据悉,针对大模型的安全伦理问题,由黄民烈带领的研究团队历经两年沉淀,建立了大模型安全分类体系,并从系统层面和模型层面出发,打造更可控、可信的大模型安全框架。

安全框架的建立,定义了大模型的应用边界,促进大模型生态的健康发展,引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和应用。

相比过去在安全伦理方面考虑较少的大模型,ChatGPT 背后所依托的大模型取得了巨大的发展,不仅允许用户进行后续更正,还能够拒绝不当请求和预测,这得益于 ChatGPT 在安全部分的特别设计,不过仍无法完全避免其生成不安全的内容和产生有风险的行为。

此前,由黄民烈带领的研究团队已经在安全伦理方面开展了相关研究,并依此建立了大模型安全分类体系,其中不安全的对话场景包括:政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视 / 偏见、辱骂 / 仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关,可能会导致用户接收不当信息、甚至影响用户产生有害的行为,限制大模型的发展和应用。

与此同时,研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型,使模型具备基本的安全性,能够在遇到安全问题时给予正确的回复策略,不去做判断和误导。进一步对模型进行自动测试,针对安全缺陷通过微调的方式进行快速迭代,促使模型越来越符合人类的认知理解模式,生成更加安全可信的内容。

值得一提的是,着眼于容易触发安全问题的类型,研究团队收集和构造了相应的 hard case(更难识别和处理的安全测试用例),总结和设计了六种一般模型难以处理的安全攻击方式,称为指令攻击。使安全体系更加完善,进一步改进和优化模型表现。

不论国内国外,当前大模型的安全问题仍面临着严峻的困难和挑战,人工智能作为一门前沿科技,可以给人类带来巨大福祉,也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署,打造安全、可信、可靠的 AGI Companion,是该研究团队的最终愿景。

未来,研究团队将打造中文大模型的安全风险评估的 Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供:

1、针对中文对话的 8 个安全场景,40 个安全类别做全面精细的测试,包括人工评估和自动评估。

2、额外设置 6 种安全攻击(如目标劫持等)的超难指令攻击测试样例,探索模型的安全上限。

3、设置公开和隐藏测试集,众人皆可参与评测。

嘉宾介绍:

黄民烈,清华大学计算机科学与技术系长聘副教授、博导,国家杰出青年基金项目获得者,北京聆心智能科技有限公司创始人。黄民烈带领的研究团队致力于构建具有类人水平的对话智能体,将依托自身的核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让 AI 提供可信、可靠的输出,让人工智能走向 AGI 时代。