庆云古诗词

庆云古诗词

chatgpt会让程序员失业吗 有了chatgpt以后的职业规划

淘文章 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

程序员会看到你的信息吗,程序员会知道别人的隐私吗,程序员能看到微信聊天记录吗,程序员是不是可以窃取隐私

AI的三要素是数据、算法和算力。多年间,如果画出一条人工智能(AI)行业的鄙视链,数据处理的工作一定处于底端。但ChatGPT的出现,可能颠覆这条鄙视链。如Meta首席人工智能科学家所说,ChatGPT“并不具有创新性,也不具有革命性……它只是个巧妙的组合”。而在这个组合之中,最令人意外和惊喜的,正是此前被忽略的“数据”部分。

北京时间3月15日凌晨,OpenAI正式推出大型多模态语言模型GPT-4――也就是ChatGPT所基于的GPT-3.5的迭代版本。

GPT-4的发布正好赶在百度语言大模型“文心一言”发布的前一天。压力,再一次给到正加班加点鏖战“中国版ChatGPT”的各家大厂这边。

GPT-4最为亮眼的革新莫过于支持“多模态”输入,也就是相比于ChatGPT(基于GPT-3.5)仅能文字输入和文字输出,GPT-4还支持图片、文字输入――换句话说,它看得懂表情包和梗图。

此外,根据 OpenAI公布的研究数据,GPT-4不仅在各项性能表现上均优于GPT-3.5模型,在一系列人类测试中也表现出了更强的能力,其中包括“难倒”万千大学生的高等数学(微积分)、统一律师资格考试、美国高考(SAT)数学……

目前,OpenAI发布了集成GPT-4的ChatGPT Plus,用户可以以每月20美元的订阅标准抢先试用。不过,ChatGPT Plus暂时还未开启图像输入功能。

OpenAI并未公布GPT-4用于训练的数据规模,但考虑到前代模型ChatGPT(基于GPT-3.5模型)使用了1750亿个参数,业界估算GPT-4使用的参数规模或达到100万亿级别。

而在几年前,这是不可想象的。

全球顶级人工智能(AI)科学家、斯坦福大学终身教授、曾任谷歌首席AI科学家的李飞飞分享过一个故事:

2009年之前,AI图像识别模型仅能认出四种物体:汽车、飞机、豹子、人脸,因为以往研究者一般只会针对这四类物体进行模型训练。

更深层次的原因是,想让AI认识一种物体,需要人工先在图片中标记出目标物,再将大量这样的图片“喂”给AI进行训练。“有多少人工,就有多少智能”,AI能力越强,背后要付出的人力越多。

因此李飞飞设想,如果人工标注足够多的图片并用以训练,理论上就能够得到“无所不知”的模型。

这堪称一个疯狂的想法,如果想让AI识别出字典上的所有物体,需要标注的图片数量达上亿张,李飞飞的3人课题组要不眠不休干几十年才能完成。

最后,李飞飞不得不通过众包平台发布任务,低价雇佣全球各地的劳动力完成标注任务――可想而知,大部分标注工来自更具人口红利的国家和地区。

这是全球最知名大型视觉数据库ImageNet背后的故事,也是“三院院士”“AI女神”李飞飞的成名之战。ImageNet滋养了全球各地大大小小的AI项目,但也揭示了AI数据处理环节是劳动力密集产业的事实。

从那之后,资金涌入各类AI模型创业领域,相比之下AI数据环节则少有人问津。

不过十余年之后,当曾经梦想的“无所不知的模型”真正诞生,情形似乎开始发生变化。

美国研究机构OpenAI发布的大语言模型ChatGPT,被视为揭示了AI行业新的发展方向,也带动各路资本涌入大语言模型研发。

大型模型对数据处理提出了新的玩法,也意味着全新的技术掘金空间正被打开。一二级市场中,投资热情已经带动着相关企业的估值高涨。开年至今,A股“AI数据第一股”海天瑞声已拉出4个涨停板。截至3月15日收盘,海天瑞声市值已达到70.41亿元。

不仅如此,据业内消息,多家大厂正在着手将数据标注团队独立出来。一场对AI数据服务市场的抢夺战,正在吹响号角。

AI数据处理主要步骤包括数据收集、清洗原始数据、对数据进行标注等等。根据相关统计,数据处理往往会占据整个AI项目实施过程中80%的时间。其中最耗费时间的则是标注环节。

数据标注是指人工对文本、视频、图像等元数据进行标注,以此将元数据转换为机器可以识别的信息,标记好的数据才能用于训练AI模型。因此,数据标注常被视为“dirty work(脏活累活)”,相关工作常被委托给第三方外包企业完成。

从2022下半年开始,这项曾经不受欢迎的“dirty work”,突然获得了前所未有的重视。

“我和团队2017年开始创业时,很多机构还无法理解数据处理的价值,我们只能通过描述未来的愿景说服他们。之后几年里,我们平均营收年增速在50%-100%,因为我们一开始投入在自动化算法的比例比较大,坚持难而正确的事情,所以横向对比,没有纯粹做业务的公司跑得快。”AI数据服务企业星尘数据(北京星尘纪元智能科技有限公司)的创始人、CEO章磊告诉市界。

不过,最近情况明显发生了变化。越来越多投资人找到星尘数据,希望能对其进行投资。

2022年12月底,星尘数据完成了5000万元的A轮融资。据一位接近星尘数据的知情人士透露,此后仍有多家投资机构在积极接触星尘数据,“有时候一天要接触不止一家机构”。公司预计将在2023年中开启下一轮融资。

一家企业面临的际遇变化,背后是越来越多的投资人正将目光投向这一领域。

供职于一家腰部投资机构的Andy告诉市界,目前AI数据处理项目已经成为新的投资热点,“在2017、2018年的AI融资高峰期里,如果一个项目同时满足海归科学家、CV(计算机视觉技术)、团队这3点,大家都会抢着投。现如今如果把CV换成数据,大家也会抢着投。”

所谓“抢”,体现在当Andy接触到某个数据处理团队时,“对方会直言近期也有别的投资方来联系过,压力就给到我这边了”。

在中小型投资机构做出动作之前,头部的资本已更早地对AI数据进行了布局,这更让新入场的团队和资本感受到压力。

比如,国内“AI数据第一股”海天瑞声曾在2017年的B轮投资中,获得了小米集团的青睐;2018年,梅花创投现身于爱数智慧的A轮融资;2019年,数据服务平台格物钛完成Pre-A轮融资,红杉中国、真格基金同台投资……

如果说AI数据服务在一二级市场的火热距离普通人的生活还有距离,那么产业层面的火热则更容易被人们所感知。

近几个月,在河南从事文本标注工作的史月,突然发现自己的职业“火”起来了,“我一直都是独立做标注单,靠熟人组团接单。最近明显感觉单子多了,有时候突然有熟人把我拉到一个微信群里,然后就开始发需求,问能不能接”。

在内蒙古的易晖也有同样的感受:“甲方非常多。我一年前入行,在本地数标基地和朋友一起创业做标注团队,一年过去我们已经发展出300人的团队了。”接下来,易晖还打算继续扩充团队:“你只有更大的团队,才能拿到更大体量的数据包。”

不仅如此,易晖口中的一些“甲方”已亲自下场,试图自主搭建数据标注团队。据36氪援引业内人士信息:“目前,已经有不少AI大厂开始着手把自己AI标注的部分工作独立出来了。”

与AI数据投资热潮分不开的,是以ChatGPT为代表的大模型的兴起。

Meta首席人工智能科学家Yann LeCun评论ChatGPT称:“(它)并不具有创新性,也不具有革命性……它只是个巧妙的组合”。

从AI的三要素算法、算力和数据角度分别来看,ChatGPT采用的核心算法Transformer最早由谷歌提出,代码已经开源;而ChatGPT训练过程中由英伟达芯片A100支持也早已不是秘密。在这个令人惊叹的大模型中,唯一无形的技术壁垒只剩下数据――那多达175B个参数,一个极其高质量的数据集。

如国内AI企业OneFlow对此评论的:“算力(芯片)是自由流通的商品,花钱可以买到,工程(算法)上有开源项目和团队,因此,对互联网大厂之外的团队来说,剩下最大的挑战在于高质量训练数据集。”

至今,OpenAI尚未公布ChatGPT训练用数据集的来源和具体细节。

“人工智能三要素里,数据不值钱,这是过去几十年里大家形成的观念,但是就像Paul Graham(硅谷知名天使投资人)说的,创业思维最吊诡的一点在于‘正确的做法和直觉往往是相悖的’。现在全球估值最高的AI公司,恰恰是一家数据标注企业。这足以说明数据服务的价值是被低估的。”一位投资人向市界评论道。

他提到的这家AI数据标注企业,是美国华裔创始人Alexandr Wang在2016年创办的Scale AI。截至2021年4月宣布的一轮融资,Scale AI的估值为73亿美元,公司客户中包括OpenAI、Airbnb等知名企业或机构。

这种价值的低估不仅发生在一级市场。哪怕在许多市场参与者眼中,AI数据处理也是一个人力“内卷”的生意。

星尘数据创始人、CEO章磊分析道:“目前市场中存在最多类型的AI数据企业分为两类,第一类是‘做生意’型的企业,也就是自己聚集一批标注人力并做中间整合、低买高卖,核心竞争力在于对甲方的商务、销售能力;第二类是做众包平台,甲方可以在平台发布任务,人力自主接单,这类平台的核心竞争力是运营能力,要看拉新、月活、日活等数据。但这两类企业都没有发展算法相关的能力。”

而这两类企业,都没有脱离AI数据服务“劳动密集”的窠臼,但Scale AI代表的是一种不同于传统数据标注企业人力“内卷”的全新商业路径。尽管同样雇佣了部分海外人力进行标注,但Scale AI更多是通过自研的自动化数据标注(auto labeling)平台完成工作。

具体来说,Scale AI的标注工具能够通过算法自动、快速甄别物体,通过初筛的图片再经过外包团队的二次筛查和标注,用人机交互的方式消解对人工的过度依赖,在海量数据的效率、成本、标注准确率之间寻找最佳平衡点。

理想状态下,90%的数据标注工作都可以由数据公司提供的工具来完成。但如果想要助力像ChatGPT一样能力出众的模型诞生,这或许还远远不够。

“想要树立独特的竞争力,需要跟算法客户有更加深度的绑定,思考在数据环节能够怎么帮助前沿算法落地。”章磊表示。

数据自动化标注工具说到底也是AI算法和产品设计。而随着技术进步,算法对数据系统的要求不仅仅是人工苦力活,更多的是自动化、算法策略,以及相匹配的数据闭环系统。例如ChatGPT中的人机闭环,就需要支持主动学习和强化学习的系统与之匹配。

这意味着要建立数据服务的壁垒,或许还需另辟蹊径。据章磊分析,除了通过自动化标注工具来提升标注效率之外,还需要具备另外两方面的能力:数据策略能力和数据闭环能力。

其中,前者指的是数据服务商对AI数据处理整个过程中的领悟和把控力,既涉及大量算法相关的技术,也涉及以数据为中心的反馈迭代技术,还需要服务商掌握一整套项目管理的方法论。

举例来说,相较于此前算法客户提出标注规则,服务商“盲目”完成任务的旧模式,未来数据服务人员能否对算法标注规则给出自己的建议,来提升算法的训练效果?

另外据一位资深AI数据服务从业者告诉市界,据其调研,如今企业缺乏AI数据资源管理系统是常态,“此前由于缺乏数据管理意识,甚至很多科技大厂也没有建立起AI database,创始人甚至可能不知道公司到底有多少数据资源。但是如今随着大模型等风口降临,许多企业都准备自研数据系统”。

但是,在短时间内想要研发出可供大模型训练的数据系统并非易事。

因此,在这一方面提供助力,也是AI数据服务企业在“数据策略”方面发展的一大方向。章磊分析:“如今客户需要的数据系统需要满足两个特点,分别是具有自动化能力、具有和算法的整合能力。”

能否帮助客户在繁杂的数据中快速摸索和整理出可供训练的部分?这也考验着服务商的数据策略能力。

而数据闭环能力,指的则是算法模型与数据集之间协同的、相互的、同期的迭代。当AI模型输出结果出现问题时,数据服务环节可以动态感知到问题所在,并通过同步改变输入的参数来校正训练结果。

从这个意义而言,“数据闭环”的能力,就是模型自我快速“debug(调试)”的能力。

举例而言,许多用户在使用过程中发现ChatGPT在回答某些问题时出现了错误。而如今发布的ChatGPT并未接入互联网,训练数据截至2021年之前。

也就是说,ChatGPT模型与数据之间的实时联络被“斩断”了,模型无法实时迭代。如果能够打通数据闭环,这个问题就能得到解决。

▲(ChatGPT在回答某些问题时可能发生错误)

据章磊透露,目前国内大部分AI数据服务企业仍聚集于人力标注的低价值量环节,具备上述三方面潜力的玩家凤毛麟角。

英特尔联合创始人安迪・格鲁夫曾在其自传中写道:科技发展史上有一个基本规则,即只要可能发生的事,一定会变成事实。

对许多人而言,人工标注还是AI数据处理的代名词,但变化已在不经意之间发生。尽管离最终实现还有距离,但“自动化标注+数据策略服务+构建数据闭环”正为AI数据服务市场打开更大的想象空间。

对于国内玩家而言,唯有上溯产业价值链,才能在新一波的AI技术浪潮中不受荡涤。

注:文中Andy为化名。

参考文献:

1、《开启人工智能时代 给AI一双慧眼 专访斯坦福大学人工智能实验室主任李飞飞》,杨澜访谈录

2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吴恩达

3、《ChatGPT数据集之谜》,OneFlow

本文来自微信公众号“市界”(ID:【【微信】】),作者:董温淑,编辑:董雨晴,36氪经授权发布。


chatgpt侵权风险 chatgpt如何应用于安全领域

chatgpt,chatgpt怎么下载,chatgpt中文,chatgpt使用

ChatGPT不用多介绍,想大家都知道它有多火了。

ChatGPT的全名是“Chat Generati【【微信】】rmer”,它是由美国OpenAI 研发的聊天机器人程序,发布于2022年11月30日。

ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

一经面世,网上都是关于各种行业、各种人与ChatGPT的对话新闻。但是,随着ChatGPT的智能,随之而来的是网络安全问题。

近期,有报道称,已发现假冒ChatGPT 品牌的 Chrome 浏览器扩展程序具有劫持 【【微信】】 帐户和创建流氓管理员帐户的功能。

Guardio Labs 研究员 Nati Tal在一份技术报告中说:“通过劫持备受瞩目的 【【微信】】 商业账户,威胁者创建了一支由 【【微信】】 机器人和恶意付费媒体设备组成的精英军队。这使得它能够以一种自我传播的蠕虫般的方式,以牺牲受害者的利益为代价来推送 【【微信】】 付费广告。”

浏览器插件通过 【【微信】】 赞助的帖子进行推广,虽然它提供了连接到 ChatGPT 服务的能力,但它也被设计为使用已经激活的、经过身份验证的会话秘密收集 cookie 和 【【微信】】 帐户数据。

这是通过使用两个虚假的 【【微信】】 应用程序――portal 和 msg_kig――来维持后门访问并获得对目标配置文件的完全控制来实现的,并且将应用程序添加到 【【微信】】 帐户的过程是完全自动化的。

然后,被劫持的 【【微信】】 商业帐户被用来为恶意软件做广告,从而有效地扩大了其 【【微信】】 机器人大军。

据称自2023年3月3日以来每天吸引2,000次安装的“快速访问聊天GPT”扩展程序自2023年3月9日起被谷歌从Chrome网上应用店中撤下。

随着ChatGPT风靡全球,无法访问该服务的消费者往往会在好奇心驱使下铤而走险,选择一些“第三方”渠道购买服务。目前围绕ChatGPT的网络欺诈空前猖獗,各种网页版、微信版、程序版甚至短信版ChatGPT“翻墙服务”五花八门,甚至某些十八线小县城公务员都已经开始用ChatGPT写报告,非法提供ChatGPT访问和“订阅”服务俨然已经成了一个“村村冒烟”的庞大灰色产业。

值得高度警惕的是,这些“ChatGPT翻墙服务”中充斥大量网络*和信息窃取的恶意行为。网络安全公司Cyble最新发布的报告显示,网络上已经出现大量仿冒ChatGPT的钓鱼网站和假冒应用程序(包括PC客户端和手机APP),其中很多甚至在Google Play官方商店上架,从事信用卡窃取、ChatGPT订阅支付*等活动。

有些ChatGPT假冒程序内藏Spynote,Redline等恶意软件,可以窃取消费者手机通话记录、联系人列表、短信和敏感数据等非法活动。

例如,上个月,Cyble就披露了一项社会工程活动,该活动依靠非官方的 ChatGPT 社交媒体页面将用户引导至下载信息窃取程序的恶意域,例如RedLine、Lumma和Aurora。还发现了通过 Google Play 商店和其他第三方 Android 应用商店分发的虚假 ChatGPT 应用程序,将SpyNote 恶意软件推送到人们的设备上。