庆云古诗词

庆云古诗词

南京大学教授陈云松:ChatGPT给人文社会科学带来的机会大于冲击

淘文章 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

陈云松对研究生如何,南京大学陈平,南京大学白云教授,南京大学 陈强教授
2022年11月底,美国人工智能公司OpenAI推出的聊天机器人【【微信】】引起了社会各界关注,它能够通过学习和理解人类的语言进行对话,还能根据聊天的上下文进行互动,并协助使用者完成一系列任务。人们怀着极大的兴趣在讨论和尝试着这项崭新的技术成果。
人们或因此而兴奋,或为此感到恐慌。兴奋的是语言智能技术真的使计算机能像人类一样和我们自如地聊天解惑了,并且话语自如、有理有据。惶恐的是【【微信】】超强的生成学习能力,不仅可以聊天,还可以写论文、小说,这样的话,【【微信】】未来是否会有代替人类的工作的威胁?甚至于是否会对人文社会科学研究产生进一步的影响?对此,中国社会科学网记者于近日采访了南京大学社会学院教授陈云松。
【【微信】】给人文社会科学
带来的机会大于冲击
文 |?孙美娟、吴楠
来源 | 中国社会科学网
中国社会科学网:【【微信】】的底层逻辑是什么?
陈云松:在技术方面,【【微信】】本质上运用的是AIGC(AI generated content)技术,是直接可以输出内容的,目前以文本内容为主,这也是它和搜索引擎很大的区别。以往我们熟悉的AI基本运用的是决策式模型。以文本类的决策式AI为例,第一步往往是判断文本的内容和要求,第二步是判断自己的任务,第三步是检索相关的内容;而【【微信】】这类的生成式AI还会再多进行一步,那就是生成全新的内容,而这需要对提问者的偏好和想法等进行预测,还要能够生成合理、流畅、有意义的文本,形成真正意义上的“对话”。
在学习和判断机制方面,决策式AI一般用的是“条件概率模型”,即一件事情发生后另一件事情发生的概率,个人感觉这种学习机制比较像我们从课本上学习技能类/知识类内容。这类知识是有准确答案的,学习的模式就是背题记答案,这种模式的好处是准确,极大概率不会出错,坏处就是可以生成的决策数量/输出内容是非常有限的。当没有对应的问题或者问题的表述有误时,就无法输出答案。
而生成式AI往往用的是“联合概率”,即两件事情同时发生的概率,并以此将文本元素组合在一起,形成内容,这种学习模式更像是人类最初学习语言的机制,靠联想和模仿,比如小时候,当汽车这个物件和汽车这个词同时出现的频率多了之后,我们就自然而然会明白汽车这个词指代汽车这个物件。
因此,【【微信】】非常适合文本内容生产,它的底层逻辑就是在模仿人类的语言机制,这种模仿式学习的好处是很灵活,不死板,可以生成大量的内容,问题是很不准确,很多时候内容是模糊的,甚至会出现“不懂装懂”、“牛头不对马嘴”的回答。
中国社会科学网:从整体上来看,【【微信】】给人文社会科学带来的新变局是什么?
陈云松:对人文社会科学来说,【【微信】】确实是一个巨大的冲击,但总体而言,【【微信】】给人文社会科学带来的机会大于冲击。【【微信】】是一个很好的“助手”,它强在对既有文本的整合和输出,但它不太具备创新能力,也无法生成新的观点和想法,而这往往是研究者所拥有的能力。因此如果研究者擅长提出问题,或许可以有效利用【【微信】】的整合能力和检索能力,发现很多新的想法。如果未来【【微信】】的检索和整合能力进一步加强,其实是一个很强的文本分析工具,类似的AIGC技术若再进一步发展,将对数据的挖掘/爬虫/大数据的获取等都有帮助,这或许可以突破学科壁垒,收集到更多以前无法获得的数据。因此,总体来讲,【【微信】】对现有人文社会科学的影响不大,更多的可能是会给研究者带来一些帮助。
中国社会科学网:【【微信】】的应用会导致大量人失业吗,为什么?
陈云松:从失业本身的角度:从经济学的角度来看,短期失业可能是经济波动导致的,而长期失业的本质是结构性问题,技术更新只是其中一个方面,也就是说如果技术更新(生产力发展)快于我们的产业结构调整(广义上的生产关系),就有可能导致大量的长期失业,而这种失业是会伴随着产业结构调整而慢慢好转的。
更具体来讲,技术更新带来的生产力的进步可能会带来广义上生产关系的变化,必然会对传统的产业结构带来冲击,旧有的劳动力需求减少,就会带来结构性失业,但调整好生产关系和产业结构,技术更新也会逐渐创造出新的岗位需求,最终也会解决结构性失业的问题。因此,【【微信】】可能会导致失业,但失业和再就业的过程可能是同步和交替的,【【微信】】对失业的影响可能没想象那么大。
从【【微信】】的角度:AIGC其实是一个已经发展了很长时间的技术,之前的各项进展也都没有出圈,停留在专业领域。而现阶段【【微信】】却引起了广泛热议,也有很多人认为它的出现会代替很多人类工作,导致大量失业,这可能是因为【【微信】】在“模仿人类回答”这一领域确实表现得太优秀了,但它也有擅长和不擅长的地方,基于它的学习和技术机制,它擅长输出模版化/统一化/系统性强的内容,因此相关从业者可能会感受到危机,但这里的相关从业者不一定就是某个具体的工种和行业,也可能是某个特定的岗位,带来的也不是某个行业和岗位的消失,而是精简,因为【【微信】】目前扮演的实质上是一个工作效率极高的员工的角色,擅长处理一些模式化的内容,以前可能需要2个人干的活,现在只需要一个人加【【微信】】就够了。因此,我觉得【【微信】】对就业的冲击可能是全行业的,针对的是某些特定的岗位或者职责,而且随着【【微信】】在专业领域的不断学习,这种冲击可能会更深。
但它目前也只是一个好的模仿者,不擅长创新和问问题,提供的答案比较模糊和初级,涉及到比较复杂的逻辑、因果和关系判断时会容易出错,因此【【微信】】对研究者来说也是一个机遇,它是一个很强大的“助手”,当我们有好的问题、好的想法时,它可以帮助我们更快更有效率地完成一些基础性工作。因此,我觉得对于研究者来说,培养自身的想法和思路然后合理利用【【微信】】的优势可能是一个出路。

区块链十大重要指标 区块链gpt

区块链十强,区块链前十名,区块链十大排名,区块链十大影响力人物

来自:国盛证券

21 年,我们在《元宇宙(七):虚拟人的“灵魂”是什么?》中讨论了数字人将是一个重要的交互载体,应用场景广泛,而 AI 驱动的数字人将使其真正拥有“灵魂”。短短两年,AIGC 发展超出了我们的想象。伴随着 AI 生成算法和包括 GPT4 以内的多模态的进步,数字人的灵魂将被点燃。

AIGC,数字人的点睛之笔。AIGC 解决了数字人“只会念稿、不能交互”的尴尬,生成算法提高了内容创作的效率和便捷性,降低了成本和门槛,同时还丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好。自然语言处理大模型有助于提升数字人交互体验,真正让数字人有了灵魂。而ChatGPT 所展现出来的高灵活度让人们对 AI 有了新的认知,它比普通的 AI机器人更加像自然人,对信息、知识的挖掘和梳理更充分,对语句的处理更加贴近人类的日常交流表达习惯。

2D 仿真数字人爆发在即。3D 建模数字人精美度高,但过高的成本和制作周期导致其在商业化应用上存在一定难度,通常被用作品牌大使等场景。但对于市场空间更大的直播带货、教育、客服等场景来说,难以普及。尤其在AIGC 发展迅速的现在,2D 仿真数字人的制作门槛、周期和成本远远低于3D 建模数字人。并且,在市场空间较大的直播带货、娱乐主播、客服和游戏 NPC 场景下,2D 数字人已经足够满足当下的需求,爆发在即。

GPT4+数字人,构筑元宇宙中的“阿凡达”。数字人未来的用途将远不限于主播、客服等,随着算力的提升以及 GPT4 的模型升级,数字人将成为个人分身“Avatar”,输出文字、图像、音视频,甚至细微到情绪表达。在未来构建数字内容的过程中,将有更多的场合可以用 GPU+电耗替代人工,真正打造元宇宙数字世界,使数字人集社交、创作、分享于一身,有望成为GPT4 之后、承载多模态的杀手级应用。

投资策略:涉及的赛道可以分为应用、IP 和基础设施两大类,其中基础设施可以细分为自然语言处理模型、数据集、AIGC 生成算法和算力。数字人应用、IP:蓝色光标、汤姆猫、中科金财、昆仑万维;NLP 和 AIGC 算法:微软、谷歌、百度、科大讯飞、拓尔思;算力层包括:天孚通信、太辰光、中兴通讯、锐捷网络、紫光股份、新易盛、中际旭创等

风险提示:伦理风险:AI 驱动的人工智能交互过程中,可能出现伦理风险。技术发展不及预期:AIGC 的技术发展不及预期。以及底层硬件技术,如:超级计算机、算力等。政策法律监管风险:目前数字人和 AIGC 都处于发展初期,在知识版权等问题上还有许多尚不明确的地方。随着相关法律的逐步完善,或初现法律监管的问题。

虚拟数字人产业发生了什么边际变化?

2021 年,我们写了一篇名为《元宇宙(七):虚拟人的“灵魂”是什么?》的文章,讨论到了数字人将是一个重要的交互载体,应用场景广泛,而 AI 驱动的数字人将使其真正拥有“灵魂”。短短两年过去了,数字人产业发生了许多变化:

? 技术进步推动了数字人的形象、表现力和交互的提升,例如使用 AI 生成技术、3D建模技术、动作捕捉技术和 NLP 模型等,可以惟妙惟肖地表现人物情绪、动作、语言交流等。

? 不同类型的数字人(如虚拟偶像、服务型数字人、社交型数字人等)的商业模式逐渐清晰,涉及内容创作、直播互动、广告代言、电商销售等多个领域,场景接受度在提升。

? 2D 仿真数字人在商业上迎来爆发,相比 3D 建模数字人成本低且应用场景更丰富。技术进步推动数字人形象和交互能力提升随着算力提升,新概念的数字人正在打破“皮套人”的固定认知。从外观看,通过超精细渲染,数字人高分辨率的皮肤微结构极大限度地提升了数字人在中、近景出镜的真实程度,拟人表现力显著提高,基本突破“恐怖谷效应”的形格势禁。纵向对比来看,以专业团队创作的服务型数字人为例,2021 年的百度 AI 手语主播和 2022 年凌迪 Style3D的项目“Sarah”相比,拥有超精细皮肤渲染的 Sarah 在观感和表情细节(甚至包括皱纹)更加接近真人。

从交互看,AIGC 强力助攻,数字人对话更加自然,IP 型数字人有望摆脱人工内容策划、配音和动补。初代虚拟网红 Lil Miquela 以真人为模型,将面部进行动补、动画处理,剪辑后发布在 YouTube。但作为虚拟网红,其策划团队刻意将出镜内容表现为贴近当下时事,没有考虑人造 IP 对真实尺度的把控,直接导致 Lil 失去人气。观众并非需要一个 100%贴近现实的虚拟网红,而在 AIGC 加持下,运营者可以很好地平衡虚拟网红在产出内容时在真实与虚拟之间的界限。

我们认为,数字人的最终形态是完全由 AI 驱动,即用 AI 替换掉运营策划团队所扮演的角色。ChatGPT 所展现出来的高灵活度让人们对 AI 有了新的认知,它比普通的 AI 机器人更加像自然人,相较以往的 AI 模型,AIGC 概念的 ChatGPT 对信息、知识的挖掘和梳理更充分,对语句的处理更加贴近人类的日常交流表达习惯

商业模式亟待破圈

数字人应用场景集中于:需要 IP 站台,重复劳动居多且工作流程固定的客服,以及知识密集型服务岗位。下面是数字人在文娱、消费和专业服务领域中的应用实例。可以看出,早期的数字人更像执行特定指令的动漫人物。

如何破解数字人市场商业模式单一,产品缺乏差异化的问题?

“科技感”是数字人最大的标签,也是最容易限制数字人发展的阻碍。与 AI 产生拟人交互、高度定制化,是吸引C 端用户的主要手段,批量生产 IP、减少人类劳动压力,是吸引 B 端用户的核心办法,大部分数字人和背后的运营团队都逃不开这种单一的商业模式。

数字人本质上是一款强内容驱动的产品,但目前数字人公司更多是从产业布局、业务需求,技术生产等角度出发,普遍缺乏内容人才。从底层技术看,国内大部分数字人公司都是基于 UE5 等开源技术进行开发,这导致很少有公司具备尖端技术优势。在 AIGC 大规模商业化应用前,大部分企业只能在内容、运营、创意上展开竞争。数字人的各种人设和行为皆是团队编辑好的剧本,用户在台前看到的数字人都只是背后运营团队的产出。

因此,在商业层面,早先市场关注的 3D 数字人存在“成本高、周期长、缺交互”的问题,影响了商用推广。更进一步地,我们认为,3D 数字人一定程度上反而提高了内容创作的壁垒。

2D 仿真数字人――恰逢其时,应运而生,渐成“闪耀新星”

在《元宇宙(七):数字人的“灵魂”是什么?》中,我们提到了 3D 建模数字人对于技术要求高、制作周期和成本高。如柳夜熙这样精度的数字人,制作成本至少在 50 万以上,且期视频的创作周期需要一个月左右,幕后创作团队包括导演、策划、制片、三维、运营等人员。3D 建模数字人精美度很高,但过高的成本和制作周期导致其在商业化应用上存在一定难度,通常被用作品牌大使等场景。但对于市场空间更大的直播带货、教育、客服等场景来说,难以普及。由此,当大部分人都惊叹于 3D 数字人之精美时,我们却聚焦到 2D 仿真数字人,该技术被广泛应用在了直播带货、MCN 当中,可谓应运而生。

通常情况下,2D 仿真数字人使用静态扫描技术制作,即通过 40-60 个照相机对真人进行全方位拍照,根据拍照光线和角度进行矩阵扫描,从而在软件中呈现出 2D 立体形象。静态扫描技术仅需拍照搭配上少量所需数据,就能以较低的成本制作出 2D 数字人形象。尤其在 AIGC 发展迅速的现在,2D 仿真数字人的制作门槛、周期和成本远远低于 3D 建模数字人。并且,在市场空间较大的直播带货、娱乐主播、客服和游戏 NPC 场景下,2D数字人已经足够满足当下的需求。伴随着 AIGC 的发展,2D 数字人也同样具备语言交互功能,能回答消费者的问题,这些问题因较为垂直而更容易用模型训练,大模型之下,这种交互性能将持续得以提升。

2D 数字人应用场景

2D 数字人的优势在于不但可以提供定制化的风格和造型来满足不同客户的偏好,同时也不存在“塌房”的风险。主要可以被运用在以下四个场景:

? 服务业:在教育、银行、医疗领域提供服务,引入类似于 ChatGPT 的 NLP 大模型以后,交互性会变得更好。如医疗导诊,尤其针对一些老年病人可以更好地做到一对一的交互带领。教育领域,可以针对不同学生的进度提供定制化讲解。

? 影视作品:在电影、电视剧和动画片里作为演员存在,不但可以根据需求和剧情定制形象,同时也能避免出现由于演员私人的一些行为导致整部作品无法按时上映的风险出现。

? 虚拟 UP 主:娱乐直播、表演歌曲、舞蹈、游戏等,可以打造个性化的形象和风格,定制化满足粉丝的需求和喜好,且不会出现塌房事件。

? 虚拟直播带货:利用 2D 数字人来制作营销推广、客户服务、产品介绍等视频,可以提高转化率、增强信任感和体验感。2D 数字人在直播、短视频行业率先发力在以上谈到的服务业、影视作品、虚拟 UP 主和虚拟直播带货四个应用场景里,虚拟 UP主和虚拟直播带货已然看到了增长的趋势。

? 虚拟 UP 主:以国内虚拟主播大本营哔哩哔哩为例,2022 年 B 站该品类的各项数据仍在高速增长。截止到去年年底,共有 23 万名虚拟主播在 B 站开播,同比增长 190%,直播弹幕互动量达 14.2 亿。2022 年 Q4,B 站的月均活跃 up 主数量在 380 万,虽然虚拟人 up 主数量占比还较小,只有 6.05%。但我们已经可以窥见 2D 数字人在短视频行业的巨大发展空间。2022 年 B 站的营业成本高达 180 亿元,同比增长 18%,其中的收入分成成本达到 91亿元,也就意味着去年一年 B 站给到 UP 主的分成达到了 91 亿元。根据虚拟人 UP 主的占比,将近产生了 5.5 亿的收入。参考艾媒咨询的数据,2020 年中国短视频用户应用情况中 B 站的市占率为 13%。考虑到 B 站二次元氛围较浓,我们预估全行业虚拟人 UP 主的占比为 B 站的一半既 3%,则整个虚拟人 UP 主每年的收入将约为 24 亿元。

? 虚拟人直播带货:

自去年双 11 开始,我们已经可以明显感受到很多淘宝直播开始启用了虚拟人,并且阿里云也提出了定制虚拟直播带货的 SAAS 服务方案。根据艾媒咨询的预测,2023 年我国直播带货整体规模能达到 16594 亿元,如果参考上文提到的虚拟 UP 主的占比为 3%,预计未来虚拟直播带货会形成约 500 亿元的市场,而这 500 亿收入背后的人力成本却已大幅降低。通常,电商平台出于合规考虑,会对完全的数字人行为进行限制,但随着 AIGC的推进,相关合规问题可能需要重新审视。

数字人生成关键技术

一个数字人从诞生到输出价值,离不开建模、动补、语言、语音、情绪这几个基础工作。建模用于创建高保真的数字人模型,包括面部、身体、服装、发型等细节。动补用于捕捉真实人物的动作和表情,并映射到数字人模型上,呈现真实、自然的连贯动画效果。

自然语言处理技术(NLP)用于实现数字人与用户或其他数字人之间的自然对话,包括理解用户意图、生成合适回答、保持话题连贯等。NLP 可以使用传统的机器学习方法来处理,也可以使用深度学习处理。两种方法对应着不同的处理步骤。

语音合成(TTS)用于生成或识别数字人的语音,包括声音的音色、语调、口音等特征。常用的语音合成技术有波形拼接、参数合成和端到端合成技术。波形拼接通过前期录制大量的音频形成语料库,再拼接成对应的文本音频,常见于导航软件语音包;参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模,构建文本序列映射到语音特征的映射关系,生成参数合成器,缺点是机械感强;端到端合成技术仅需输入文本或注音字符,即可直接输出音频,常见于营销号的短视频制作。

情感分析&生成技术用于分析或生成数字人的情感状态,包括快乐、悲伤、愤怒等基本情绪,以及复杂情绪如兴奋、紧张等。情感分析分为狭义的情感分析和观点挖掘,情感分析指通过分析文本来理解喜怒哀乐等情感,观点挖掘偏重于理解用户表达的观点和意见。可以将狭义情感分析看成一个多步骤二分类问题。

AIGC――数字人的“点睛”之笔

数字人产业逐渐进入稳定增长的态势,根据艾媒咨询的报告,2021 年,中国数字人带动产业市场规模和核心市场规模分别为 1074.9 亿元和 62.2 亿元,预计 2025 年分别达到6402.7 亿元和 480.6 亿元。数字人形象在具有很强的可塑性,结合 AIGC 技术和 NLP 技术,能够在虚拟主播、数字员工、虚拟偶像等新业态上满足用户的多样化需求,产生巨大市场机会,推动数字人产业的高速发展。尤其在当前以 2D 仿真数字人为主的情况下,AIGC 可以提高皮套生成的效率,并且叠加 NLP 模型后,有望实现 AI 驱动的数字人。这将进一步加速数字人产业规模的增长。

提高创作效率、丰富内容多样性

随着近两年 AIGC 生成算法和自然语言模型的发展,AIGC 已被广泛应用在文字、图像,音频、游戏和代码的生成当中,输出的内容完成度较高已经能被广泛应用于商业化中。目前主流的 2D 仿真数字人主要通过图片或照片完成皮套后,叠加口型和少量动作后结合情感分析和决策机制来呈现。在这一过程中,AIGC 技术对于数字人的生成有以下的帮助:

? 提高了内容创作的效率和便捷性,降低了成本和门槛。? 丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好。

创作工具的发展与普及让更多个人用户成为内容创作者,这也带来了 UGC 的繁荣。而AIGC 作为内容创作工具,将更进一步降低图片、视频等内容的创作门槛。这将帮助数字人创作者更便捷高效地生成内容。同时也使更多没有技术背景但拥有创意的用户们可以参与到数字人的创作中来。从前是通过文案自动生成配音,而 AIGC 可以实现一句话生成文案,一句话生成图片甚至视频:例如,在 MidJourney 中,用户只需要通过输入文字描述,计算机将会自动生成一张作品;AIGC 数字人可以根据文案内容自动生成数字人节目。这些应用在相对较小的学习成本下,用很短的时间使得用户能够创作更多内容。

目前,用户可以通过 AIGC 的平台工具来创建自己的数字人,用于游戏中的打金等活动。有一家叫做 Delysium 的游戏已经开始引入这一功能。

增强数字人交互体验

目前,数字人的各种人设和行为皆是团队编辑好的剧本,用户在台前看到的数字人都只是背后运营团队的产出。例如哔哩哔哩上的许多数字人 up 主,皮套的背后还是真人在进行配音和互动。去年双十一开始,我们也注意到了有很多淘宝品牌旗舰店用到了数字人主播来进行带货。虽然这些数字人带货主播是 AI 驱动的,可以实现 7*24 小时直播并智能生成播报视频流内容,但互动体验还是相对较为初级。

去年 11 月底,ChatGPT 一上线就迅速成为了 AI 界的“当红炸子鸡”,短短 5 天内用户突破百万,成为历史上最快突破百万用户的应用。这主要得益于其强大的语言生成能力和多样的应用场景。ChatGPT 不仅能回答各种问题,还能写剧本、写小说、写说明书,甚至给代码纠错。并且在这过程中,它表现出了非常高的“情商”,能进行多轮对话,回复丝滑流畅。

3 月 2 日,OpenAI 宣布开放 ChatGPT 和 whisper 的 API 接口:? ChatGPT API 是一个用于开发者的语言模型接口,它可以让开发者使用 GPT 3.5Turbo 模型来生成自然的对话和文本。ChatGPT API 的优势是它有持续的模型改进,低廉的价格,和可选的专用容量。? 【【微信】】 是一个用于开发者的语音识别接口,它可以让用户将语音转换为文本。它使用了一个深度神经网络模型,训练在大量的语音数据上,以达到高准确度。【【微信】】 可以识别多种格式的音频文件,包括 mp3, mp4, mpeg, mpga,m4a, wav 或 webm。【【微信】】 的优势是它有极高的速度,方便的按需访问,和合理的价格。这一举措将使得数字人的交互体验向前推进一大步

投资策略

AIGC 对于数字人产业的帮助主要表现在:提高数字人内容创作的效率和便捷性,降低了成本和门槛;丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好;增强数字人交互体验。其中,NLP 大模型对于数字人应用普及起到了关键的作用。涉及的赛道可以分为应用、IP 和基础设施两大类,其中基础设施可以细分为自然语言处理模型、数据集、AIGC 生成算法和算力。

以上仅限个人学习使用,不构成任何投资建议!