庆云古诗词

庆云古诗词

ai绘画众多画家争论 奇怪的ai画家

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

ai画画,ai绘画作品,ai绘画是什么意思,ai软件绘画

都是 AI 文生图,为何差别这么大。

文丨贺乾明编辑丨龚方毅

在电脑上输入几个词,等着在屏幕上看到它们被转化成图片,比如山川湖海、鸟兽鱼虫、楼宇院落、人物肖像。不管效果如何,都不是容易的事。

因为实现这些前,需要解决计算机视觉和自然语言处理中那些最难的问题:电脑要学会听懂我们说的话,知道我们想表达什么,还要知道怎么把我们的话变成图画里的东西,最后还要尽可能好看。

这方面的产品化已经相对成熟,譬如 Stable Diffusion、Midjourney、OpenAI 旗下的 DALL・E 2,以及百度的文心一格。背后的实现算法也大同小异。

但上周文心一格画了一些让人难以理解的 “错图”。例如收到提示词 “起重机” 后画了一幅 “仙鹤”,或者把 “鼠标” 画成 “老鼠” 等。

百度用 177 字声明为其人工智能研发能力辩护,称是用 “符合行业惯例” 的全球互联网公开数据训练自研模型。它回应了有关 “抄袭”“套壳” 的质询,但没有说清楚为什么会出现这些错误。

机器画图是个听懂人话然后匹配图像的过程

当你在文本框里输入作图提示语(prompt),可以是几个词或一段话,用来形容你想要的作画主体、背景、风格、尺寸等,然后发给电脑。理论上提示语越精确,作图效果越惊艳。

系统接收到提示语以后,其背后一系列算法、模型便开始工作。第一步是理解人类语言,这得通过 “编码器” 把文字转化成一连串的数字、符号或字母,变成这套系统看得懂的语言。

因为已经提前学习了很多人画的东西,所以系统知道不同的东西长什么样子,对应什么样的文本。此时,它开始匹配最接近提示语特征的图像。比如猫有尖尖的耳朵,狗有长长的舌头,花有漂亮的颜色等。

接着它开始画图。先画出一张(或一组)很模糊的图片,有点像在雾里看东西一样。再过一会儿,画中主体的轮廓、色彩以及画作背景慢慢清晰。这是个不断地检查图片和文字是否匹配的过程,如果不匹配,它就会改变图片,让它更接近文字的意思。

最后,它可能会画出一张很清晰和漂亮的图片。

文生图应用生成图片的过程。图片来自 Midjourney。

这里的每一个环节都需要结合大量数据地反复训练。即便如此,机器也可能不理解提示语的含义,从而画出奇奇怪怪或者压根不合你意思的图片。

各家产品都依赖 Google 和 OpenAI 搭建的基础设施

这一轮人工智能根据文本提示语画图的爆发点,是 OpenAI 在 2022 年 4 月发布 DALL・E 2,它们展示了一系列新模型生成的作品,比如宇航员骑马、泰迪熊在时代广场上玩滑板,将现实世界中几乎不可能搭配在一起的元素巧妙地融合在一起。

教机器画图的尝试则更早启动。2015 年起,许多科学家试着通过一种称为 “对抗生成网络” 的技术,让电脑学习如何生成图片。其原理是用大量同类的图片,比如人脸,训练模型,让它学习一个人的面部都有什么特征,然后让一个模型负责生成人脸图片,另一个模型负责鉴定,符合要求后才算完成。

经过多年迭代,通过这种方法训练出来的图片已经以假乱真。但它局限也很明显,教它认识什么,就只会画什么 ―― 用人脸数据训练,它只能随机生成人脸 ―― 无法融入其它元素。

2017 年 Google 发布的 Transformer 架构极大程度地拔高了电脑理解文字的能力,后来成为诸多大语言模型的底层技术,如 OpenAI 的 ChatGPT、GPT-4 等。2020 年,Google 开始在图像处理领域试验 Transformer 架构,开启视觉领域的大模型研究。

借助 Google Transformer 架构的学习能力,OpenAI 在 2021 年带来文字生成图片领域的关键突破。它们训练了超过 4 亿个图文对,实证经过大量数据训练后人工智能模型,既可以根据文本提示较精确地找出图片,反过来它也能看懂图片。OpenAI 将这一研究成果取名 CLIP。

今天我们讨论的几乎所有文生图产品,包括 DALL・E 2(OpenAI 研发)、Midjourney、文心一格,要么直接用、要么借鉴 CLIP 的技术来理解语义和图像之间的关系,最后通过 “扩散模型” 生成图片。

如果把 “扩散” 想象成一种画画的方法,它是这样的:

  • 首先,你在一张白纸上随便涂满一些颜色,这样就得到了一张全是噪声的图片。噪声就是一些没有意义的颜色点,看起来很乱。
  • 然后,你开始用橡皮擦擦掉一些颜色,让图片变得稍微清晰一点。你要按照你想画的东西的形状和位置来擦,比如你想画一个苹果,就要在中间留下一个圆形。
  • 接着,你继续用橡皮擦擦掉更多的颜色,让图片变得更清晰一点。你要按照你想画的东西的细节和特征来擦,比如你想画一个红色的苹果,就要在圆形里面留下红色。
  • 最后,你重复这个过程很多次,直到你觉得图片已经很完美了。这样就完成了一张根据你想画的东西生成的图片。

训练数据质量和作图 “技法” 都很重要

机器从大量带有文字解释的图片中不断学习,才能较准确地把文本和图像关联起来,通常需要经过上亿甚至数十亿的 “图文对” 的训练。每一个产品化的文生图应用都经历了这一过程。

由于实现原理大同小异,区别不同产品的关键,成了训练大模型的数据质量和生成模型的调教策略。

百度文心一格的大模型 ERNIE-ViLG 公开于 2021 年,其模型训练的基础方法和同行近似,去年 10 月更新到了 2.0 版本。据其论文介绍,ERNIE-ViLG 训练数据集一共有 1.7 亿个图文对,其中一部分是百度的中文数据集,还有一部分是基于公开英文数据集的中译版(经百度机器翻译)。百度没有说明不同数据集的占比。

这就导致百度的大模型在没有上下文的情况下误判提示词的含义。比如 Mouse 既是鼠标也是老鼠,BUS 既是总线也是巴士, Musk 既是马斯克也是麝香。由于文心一格学习了大量的机翻英译中图文对,所以当接收到 “总线” 或者 “巴士” 的中文提示语,可能都会指向英文数据集中 “BUS” 对应的图片。

Midjourney 早期训练数据集和百度的一样,但前者既没有机器翻译造成的误差,同时自去年 11 月起即着手清理数据,删除其中模糊、带水印和边框的图片,以重新训练图像生成模型。

他们还花了大量资源和精力训练生成模型。Midjourney 创始人大卫・霍尔兹(Da【【微信】】)说,大多数团队只想让机器生成写实的图像,比如输入 “狗”,它会生成一张狗的图片,而他们自己想做的是 “弄清楚人们真正想要的是什么”,让机器学会什么样的图像有美感和创造力。

Midjourney 的进化。V2-V5 四个引擎下生成的“教皇打碟”(Papa Francesco DJ in a white jacket smiling)

为此 Midjourney 先花大量的时间给模型生成的图像评分反馈,持续调整模型,随着去年 7 月开放给普通用户,得以进一步借助用户反馈让模型学会审美。霍尔兹说 “随着时间的推移,用户的美感会融入系统”。

百度也在生成的环节投入了不少精力。根据他们发布的论文,百度的研究人员在生成图片时,针对不同的步骤,设置了不同的强化方式,尽可能提升生成效果。论文称在图像细节和质量方面的测试中,百度文心一格的模型,明显优于现有的模型,比如 DALL・E 2。

但对于人工智能应用来说,算法决定它的上限,而数据决定它离上限有多远。

一位百度人士称,他们已经开始清理数据、迭代模型。最新版本的文心一格已经分得清楚老鼠是老鼠,鼠标是鼠标。其他的产品也在飞速迭代,Midjourney 的最新版本基本攻克图像生成模型长期存在的问题 ―― 画不出真实的手。

题图来自 Midjourney。本文得到了 ChatGPT 的协助。


【早知道】商务部部长王文涛会见荷兰阿斯麦全球总裁温宁克;阿里巴巴设立六大业务集团

早知道是什么意思,早知道了成语是什么,早知道下一句是什么,早知道啊

  摘要:阿里巴巴设立六大业务集团,或将独立上市。三部门:鼓励在沙漠、戈壁、荒漠等区域选址建设大型光伏基地。上交所:取消审议先正达发行上市申请的审议会议。中国信通院启动大模型技术及应用基准工作。商务部部长王文涛会见荷兰阿斯麦公司全球总裁温宁克。国机汽车:国机智骏正与多家潜在投资者进行商务洽谈。比亚迪:2022年净利同比增445.86%,拟10派11.42元。

  隔夜外盘

  美股三大指数集体收跌,道指跌0.12%,纳指跌0.45%,标普500指数跌0.16%。热门科技股多数下跌,谷歌、特斯拉、Meta Platforms跌超1%。有色金属、石油股逆市上涨,美国黄金公司涨超16%,科尔戴伦矿业涨超7%,泛美白银南方铜业涨超2%。部分地区性银行股暴跌,硅谷银行今日复牌收跌逾99%。

  欧洲三大指数全线上涨。截至收盘,英国富时100指数涨0.17%,法国CAC40指数涨0.14%,德国DAX30指数涨0.09%。

  热点聚焦

  1、工信部:引导和支持民营企业、平台企业参与国家重大科技创新打造世界级数字产业集群

  第三届两化融合暨数字化转型大会在江苏苏州召开,工业和信息化部党组成员、副部长王江平出席大会并致辞。王江平表示,要继续做好两化深度融合这篇大文章,贯彻落实关于深化新一代信息技术与制造业融合发展的指导意见,推进“十四五”信息化和工业化深度融合发展规划落地实施。注重基础创新,引导和支持民营企业、平台企业参与国家重大科技创新,促进核心技术产品研发和应用,打造世界级数字产业集群。突出重点优势,深入开展制造业数字化转型行动,完善工业互联网平台体系,加速中小企业数字化转型指南落地推广,引导传统产业加快数字化改造。强化多方合作,加强制造企业、高校、科研院所、服务商、金融机构等各方创新协作,构建多方共赢、跨界融通的融合发展新生态,推动信息化和工业化在更广范围、更深程度、更高水平上实现融合发展。

  2、阿里巴巴设立六大业务集团,或将独立上市

  阿里巴巴集团董事会主席兼首席执行官张勇发布全员信,宣布启动“1+6+N”组织变革。在阿里巴巴集团之下,将设立阿里云智能、淘宝天猫商业、本地生活、菜鸟、国际数字商业、大文娱等六大业务集团和多家业务公司。业务集团和业务公司分别成立董事会,实行各业务集团和业务公司董事会领导下的CEO负责制,阿里巴巴集团全面实行控股公司管理。张勇在信中表示:“市场是最好的试金石,未来,具备条件的业务集团和公司,都将有独立融资和上市的可能性。”

  3、三部门:鼓励在沙漠、戈壁、荒漠等区域选址建设大型光伏基地

  自然资源部办公厅、国家林业和草原局办公室、国家能源局综合司发布关于支持光伏发电产业发展规范用地管理有关工作的通知。鼓励利用未利用地和存量建设用地发展光伏发电产业。在严格保护生态前提下,鼓励在沙漠、戈壁、荒漠等区域选址建设大型光伏基地;对于油田、气田以及难以复垦或修复的采煤沉陷区,推进其中的非耕地区域规划建设光伏基地。光伏方阵用地不得占用耕地,占用其他农用地的,应根据实际合理控制,节约集约用地,尽量避免对生态和农业生产造成影响。

  4、上交所:取消审议先正达发行上市申请的审议会议

  上交所上市委公告,原定于3月29日召开2023年第20次审议会议,审议先正达集团股份有限公司发行上市申请。鉴于出现本所规定的取消会议情形,按照相关程序决定取消本次审议会议。

  5、中国信通院启动大模型技术及应用基准工作

  中国信息通信研究院现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应用选型需求等问题,联合业界主流创新主体共同构建一套涵盖多任务领域、多测评维度的基准及测评工具AISHPerf-LargeModel,推动我国大模型技术及应用的引领创新。

  6、商务部部长王文涛会见荷兰阿斯麦公司全球总裁温宁克

  3月28日,商务部部长王文涛会见荷兰阿斯麦公司全球总裁温宁克。王文涛强调,中国坚定不移推进高水平开放,愿为包括阿斯麦公司在内的跨国公司来华发展创造良好营商环境,并提供高效服务。希望阿斯麦坚定对华贸易投资合作信心,为中荷经贸合作作出积极贡献,并共同维护全球半导体产业链供应链稳定。双方还就阿斯麦在华发展等议题进行了交流。

  主题机会

  1、Ai能力加速迭代,利好机器人商业落地进程

  据媒体报道,近日,OpenAI联合老虎基金等机构投资人形机器人公司1X 2350万美金,进军机器人行业。微软研究院发布“ChatGPT for Robotics”论文,提出了将ChatGPT用于机器人应用程序的框架,旨在推动ChatGPT与机器人融合。谷歌推出PaLM-E模型积极探索其在现实世界场景中的更多应用,如家庭、工业机器人。AI的不断发展将提升机器人的智能化水平,人机交互能力与自主运动能力,加速机器人商业化落地。

  分析师认为,机器人是AI技术的重要载体。ChatGPT与机器人的结合,将弥补当前机器人在智能性、易用性、经济性上的短板,有效提升机器人在各个行业的渗透率。多模态大模型有望成为机器人“智能大脑”,其通过自然语言指令-多模态大模型-终端执行机构的工作原理,将提升机器人的智能化水平,人机交互能力与自主运动能力,加速机器人多场景规模化落地,如物流配送、流水线作业、服务机器人、导盲机器人等。国际大厂纷纷尝试推动多模态大模型在机器人领域的应用,未来随着多模态大模型不断迭代与成熟,提升机器人的智能化水平,人机交互能力与自主运动能力,加速机器人多场景规模化落地。在行业有拐点、政策有催化、市场有主题的共同催化下,今年机器人板块将迎来整体性机会。相关公司有奥普特、奥比中光等。

  22023中国种子大会即将举办,种业公司受关注

  据报道,4月1日至4日,由中国种子协会、海南省农业农村厅等部门主办的2023中国种子大会暨南繁硅谷论坛将在三亚举行。本届大会以“中国种业振兴南繁硅谷崛起”为主题,除开幕式和主旨论坛外,围绕种业振兴等主题开设13场分论坛。本次大会包括院士、产业技术体系首席科学家、研究员、青年科研工作者等共151位报告人将作报告,大会还将发布“第三批人民法院种业知识产权司法保护典型案例”。田间集中展示包括水稻、玉米、辣椒、谷子、高粱等近2000个作物品种。与往年相比,本届大会在论坛内容设置、报告嘉宾阵容、大会权威发布、组织框架结构上都亮点纷呈。

  今年是种业振兴“三年打基础”最后一年,也是关键一年。今年的中央一号文件就深入实施种业振兴行动作出具体部署。刚刚结束的*,也提出要把深入实施种业振兴行动作为稳定粮食生产和推进乡村振兴的重要举措。今年以来,种业相关利好政策不断落地,行业景气提升。机构指出,随着我国对种业知识产权保护的层层加码和转基因作物商业化,种业竞争格局有望改善,行业集中度提升可期,具有核心育种优势的龙头种企有望快速发展。相关公司有敦煌种业神农科技等。

  3微软举办峰会,AI赋能成信息安全胜负手

  据报道,微软官宣2023年3月28日23:30(GMT+8)举办AI赋能Microsoft Secure峰会,向市场展示如何借助 AI 打造全面安全的未来以及如何助力现代企业安全更便捷更高效。

  以GPT为代表的AI会对未来的信息安全市场产生巨大影响。GPT时代,大量基于AI的自动化供给会创造出大量的安全防护需求,AI能力会成为信息安全最大的胜负手,未来安全公司会开启一轮基于AI的军备竞赛,得AI者得天下,市场空间和集中度进一步提升。相关公司有科创信息南兴股份等。

  公司新闻

  1、国机汽车:国机智骏正与多家潜在投资者进行商务洽谈

  国机汽车(600335)3月28日晚间披露澄清公告,国机智骏是公司的参股公司,持股比例40%,不纳入公司合并报表范围。经公司自查并向国机智骏了解,国机智骏目前正在与多家潜在投资者进行商务洽谈。截至目前,上述洽谈未取得最终结果,洽谈过程没有涉及应当披露的事项,公司及国机智骏均未与其他企业签署意向协议或合作协议。

  2、信立泰:拟分拆控股子公司信泰医疗至科创板上市

  信立泰(002294)3月28日晚间公告,公司拟将控股子公司信泰医疗分拆至科创板上市。分拆完成后,公司股权结构不会发生变化,且仍将维持对信泰医疗的控股权。通过此次分拆,信泰医疗将作为公司下属以血管介入治疗为核心业务的创新医疗器械公司独立上市。公司同日披露年报,2022年净利润6.37亿元,同比增长19.34%;公司拟每10股派发现金红利5元(含税)。

  3、比亚迪:2022年净利同比增445.86% 拟10派11.42元

  比亚迪(002594)3月28日晚间披露年报,2022年实现营业收入4240.61亿元,同比增长96.2%;净利润166.22亿元,同比增长445.86%;基本每股收益5.71元;公司拟每10股派发红利11.42元(含税)。

  4、普源精电:首次实现盈利股票将取消特别标识U

  普源精电(【【手机】】)3月28日晚间披露年报,2022年实现营业收入6.31亿元,同比增长30.3%;净利润9248.84万元;扣非净利润4698.08万元。公司拟每10股转增4.8股并派发红利7元(含税)。公司符合“上市时未盈利公司首次实现盈利”的情形,公司A股股票将于3月30日取消特别标识U。

  5、南方航空:2022年净亏损326.82亿元拟分拆南航物流上市

  南方航空(600029)3月28日晚间披露年报,2022年公司实现营业收入870.59亿元,同比减少14.35%;净利润亏损326.82亿元,去年同期亏损121.03亿元。另外,公司拟分拆下属子公司南航物流至上交所主板上市。

  6、双环传动:与某全球知名零部件企业签署供应商定点函

  双环传动(002472)3月28日晚间公告,公司近日与某全球知名零部件企业(简称“Z客户”)签署供应商定点函,公司被选定为该Z客户某欧洲高端品牌新能源汽车电驱动系统齿轮项目的开发和批量供应商。根据Z客户规划,本项目预计从2024年开始批量供货,项目生命周期为9年,生命周期内预计销售金额为10亿元以上。双环传动同时发布业绩预告,预计一季度净利润1.58亿元-1.7亿元,同比增长33.11%-43.22%。

  7、海得控制:拟购买行芝达75%股权 3月29日复牌

  海得控制(002184)3月28日晚间披露重大资产重组预案,公司拟以发行股份及支付现金的方式,购买沈畅等8名交易对方持有的上海行芝达自动化科技有限公司(简称“行芝达”)75%股权,最终交易价格尚未确定。同时,公司拟向不超过35名特定投资者发行股份募集配套资金。行芝达是一家工业自动化领域解决方案提供商,所覆盖的下游领域包括新能源汽车、光伏、消费电子半导体、医疗设备等制造工业。公司股票3月29日复牌。

  8、顺丰控股:2022年净利同比增44.62% 拟10派2.5元

  顺丰控股(002352)3月28日晚间披露年报,2022年实现营业收入2674.9亿元,同比增长29.11%;净利润61.74亿元,同比增长44.62%;基本每股收益1.27元;公司拟每10股派发红利2.5元(含税)。

  财经日历

(文章来源:证券时报・e公司)