庆云古诗词

庆云古诗词

比OpenAI更快一步,最新开源的MiniGPT

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

mini cheetah开源,mindopt 开源,plato 开源,mit 开源

整理 | ? 屠敏

出品 | CSDN(ID:CSDNnews)

迄今为止,GPT-4 凭借多模态能力已经成为 AI 领域备受关注的大模型,不过值得注意的是,OpenAI ? 在推出 GPT-4 时虽然引入了对图像理解的能力,但并没有在除了 Be my ? Eyes(针对盲人或弱视人士的应用程序和服务)应用程序之外的任何地方提供此功能。

GPT-4 ? 对图像理解能力的示例详见:

用户:这幅画有什么好笑的地方?逐一描述它的板块。

图片来源:【【网址】】/r/hmmm/comments/ubab5v/hmmm/

GPT-4:图片显示的是一个 "Lightning Cable " 适配器的包装,有三个板块:

板块 1:一部智能手机,VGA 连接器(通常用于电脑显示器的大型蓝色 15 针连接器)插在其充电端口。

板块 2:"Lightning Cable " 适配器的包装上有一张 VGA 接口的图片。

板块 3:VGA 连接器的特写,末端是一个小的 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。

这张图片的幽默感来自于将一个大的、过时的 VGA 连接器插入一个小的、现代的智能手机充电端口的荒谬性。

近日,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队推出了一款名为 MiniGPT-4 的新模型,以开源的形式提供了此功能。

研究人员还透露,MiniGPT-4 具有许多类似于 GPT-4 所展示的功能,下文我们也将分享相关的实例。

可执行复杂的视觉语言任务的 MiniGPT-4

该团队发现尽管 GPT-4 表现出非凡的能力,但是其特殊能力背后的方法并不为众人所熟知。因此,他们提出「GPT-4 具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)」这一想法。

为了验证这一想法,他们便提出了 MiniGPT-4 模型。

根据研究团队发布的论文显示,为了构建 MiniGPT-4,研究人员使用了基于 LLaMA 构建的 Vicuna 作为语言解码器,并使用 BLIP-2 视觉语言模型作为视觉解码器。

其中,Vicuna 和 BLIP-2 都是开源的。这意味使用开源软件可以用较少钱进行训练和微调,并且没有海量数据和开销,这也是为什么这个模型加上了 "mini" 的前缀。

在实验中,该团队发现只对原始图像 - 文本对进行预训练会产生不自然的语言输出,包括重复和零散的句子,缺乏连贯性。为了解决这个问题,其在第二阶段策划了一个高质量、一致性好的数据集,利用对话模板对此模型进行微调,这一步被证明对提高模型的生成可靠性和整体可用性至关重要。

具体来看,研究团队分两个阶段训练了 ? MiniGPT-4 模型。

第一阶段,研究团队首先在四张 N【【微信】】 显卡上利用了大约 500 万个对齐的图像 - 文本对,让 MiniGPT-4 进行了十个小时的训练。在第一阶段之后,Vicuna 能够理解图像。但是 Vicuna 的生成能力受到了很大的影响。

为了解决这个问题并提高可用性,研究人员提出了一种通过模型本身和 ChatGPT 一起创建高质量图像文本对的新方法。因此,展开了第二阶段的微调训练,该模型使用 MiniGPT-4 和 ChatGPT 之间的交互生成的 3,500 个高质量文本图像对进行了改进。ChatGPT 更正了 MiniGPT-4 生成的不正确或不准确的图像描述。

这一步显著提高了模型的可靠性和可用性,MiniGPT-4 能够连贯地和用户友好地谈论图像,并且只需要在单个 N【【微信】】 上进行七分钟的训练。让研究人员自己都感到惊讶的是,这个阶段的计算效率很高。

MiniGPT-4 ? 架构

MiniGPT-4 Vicuna 的语言模型遵循 "Alpaca 公式 ",使用 ChatGPT 的输出来微调 LLaMA 系列的 Meta 语言模型。据说 Vicuna 与 Google Bard 和 ChatGPT 相当,同样只需相对较小的训练工作量。

当前,该研究团队已经将 MiniGPT-4 的代码、预训练的模型和收集的数据集在 GitHub 上开源:https://minigpt-4.github.io/。

拥有和 GPT-4 相似的图片解析功能

正如开头所述,该研究团队推出的 MiniGPT-4 拥有和 GPT-4 相似的功能。譬如:

给它一张图,便能生成详细的图像描述:

也能讲出图片中搞笑、有趣的部分:「星期一通常被认为是一周中最令人恐惧的一天」。

还能在进一步交互中发现不寻常的内容,如:虽然仙人掌有可能在寒冷的气候条件下生长,但很少看到仙人掌生长站在冰冻的湖泊中间。此外,水面上形成的大冰晶也不是常见的现象。

于是,MiniGPT-4 给出了自己的见解:这张图片很可能是数字创作或操控的。

当然,和 GPT-4 演示的一样,MiniGPT-4 也能根据手绘草图生成网站:

识别图像中的问题并提供解决方案:

以及创造诗歌或说唱歌曲的灵感:

此外,也能根据图片续写故事,给产品做广告,对图像展现的画面进行评论、检索与图片有关的事实,以及当给定一张准备好的菜肴照片时,该模型可以输出(可能)与之匹配的食谱或者生成一个适合视障人士的图像描述。

开源类 GPT-4 ? 模型层出不穷

鉴于 OpenAI 没有透露太多关于 GPT-4 架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法的细节,强大的 LLM 的开源 MiniGPT-4 可能在研究方面具有重要意义。

对于 MiniGPT-4 的到来,也引发了一些 HN 网友的热议,有网友表示:

在技术层面上,这个研究团队正在做一些非常简单的事情 -- 将 BLIP2 的 ViT-L+【【微信】】,用一个线性层连接到 【【微信】】,并在一些图像 - 文本对的数据集上只训练这个小层。

但结果是相当惊人的。它完全打败了 Openflamingo 和甚至原始的 blip2 模型。最重要的是,它比 OpenAl 的 GPT-4 图像模态更早到达。(这是)开源人工智能的真正胜利。

也有媒体评价到,「MiniGPT-4 是开源社区在很短时间内取得快速成功的另一个案例。前几天,推出,使用从志愿者那里收集的指导数据进行训练,并打算最终成为一个 ChatGPT 的开源平替。这表明纯 AI 模型公司的护城河可能没有那么高。在这种趋势下,对于 OpenAI 公司而言,首先应该专注于使用 ChatGPT 插件为 GPT-4 建立一个合作伙伴生态系统,而不是现在就训练 GPT-5,这是有意义的。」

事实上,除了 ? OpenAssistant、MiniGPT-4 之外,GitHub 上也有网友盘点了近段时间来诞生的许多开源模型(【【网址】】/nichtdax/awesome-totally-open-chatgpt),如 Databricks 推出的 Dolly 模型、类 ChatGPT 的 ? PaLM-rlhf-pytorch、OpenChatKit 等等,为此,你认为开源大模型在此趋势下会迎来什么样的发展机遇?欢迎留言分享你的看法。

关于 MiniGPT-4 模型的更多内容可参考:

项目地址:https://minigpt-4.github.io/

GitHub 地址:【【网址】】/【【微信】】/MiniGPT-4

论文地址:【【网址】】/【【微信】】/MiniGPT-4/blob/main/MiniGPT_4.pdf

参考:

【【网址】】/minigpt-4-is-another-example-of-open-source-ai-on-the-rise/



每经操盘必知(早间版)丨OpenAI放重磅炸弹,ChatGPT即将上线新功能、AI+RPA应用望打开广阔想象空间;纳斯达克中国金龙指数跌2.4%

每日操盘必读

每经编辑:杨建

NO.1 美股三大指数收盘涨跌不一,道指涨0.2%,纳指跌0.29%,标普500指数涨0.09%,石油和天然气板块涨幅居前,科技股多数下跌,英特尔跌超2%,微软、特斯拉跌超1%。3B家居跌超34%。

NO.2 中概股普跌,纳斯达克中国金龙指数跌2.4%。爱奇艺跌超6%,满帮、唯品会跌超5%,富途控股跌超4%,腾讯音乐、拼多多跌超3%,京东、阿里巴巴、哔哩哔哩、微博跌超2%。

NO.3 国际油价集体上涨,美油6月合约涨1.04%报78.68美元/桶,布油7月合约涨1.18%报82.42美元/桶。COMEX黄金期货收涨0.45%报1999.4美元/盎司,COMEX白银期货收涨0.71%报25.235美元/盎司。

NO.4 欧股主要指数小幅收跌,德国DAX30指数跌0.15%,英国富时100指数跌0.02%,法国CAC40指数跌0.04%,欧洲斯托克50指数跌0.15%。

NO.1 据媒体报道,OpenAI放出重磅炸弹,由联合创始人格雷格.布洛克曼亲自现场演示了ChatGPT即将上线的新功能,包括自动描述并生成图片,聊天界面直接加购物车,并自主调用发推特等。此外,联网能力的加入,则可以让其自动对回答进行事实核验。此前OpenAI官宣要在ChatGPT上引入插件功能就引发热议。如今随着实测效果曝光,丝滑的效果更是把期待值拉满。AutoGPT无需人类插手自主完成任务,可以自主实现用户设定的目标,标志着人类智能助手时代开启,是当前最接近AGI(通用人工智能)的AI项目。

点评:RPA(机器人流程自动化),它使用自动化技术模拟人类的后台任务,如提取数据、填写表单和移动文件等等,它可以整合并执行企业与生产力应用之间的重复性任务,和AI结合后即为更专业更成熟的AutoGPT,相当于为软件机器人添加人工智慧的大脑,和AI结合具有天然技术优势,业界一直在探索试验,有望最先落地应用。AI+RPA将大大解放生产力,AI负责信息处理,RPA负责流程执行,实现语句输入任务,AI+RPA自动输出任务结果,带来的革命性变化可真正实现人类智能助手,为RPA应用市场打开广阔想象空间。概念股包括拓尔思,法本信息,昆仑万维等。

NO.2 4月24日,集邦咨询发布最新报告称,预估第二季DDR5 Ser【【微信】】价格跌幅将收敛,由原预估15-20%收敛至13-18%。预估4-5月DDR5 Ser【【微信】】 32GB价格将落在至80~90美元之间。同时需求获AI间接带动,进一步拉高价格,128GB高容量模组4月最新报价已止跌。OpenAI引领了大模型趋势,AI模型参数量发展到上亿级甚至百万亿的规模,复杂程度指数上升,需要强大的算力支撑其计算,对存储需求量也将大幅提升,据美光数据,一台人工智能服务器DRAM使用量是普通服务器的8倍,NAND是普通服务器的3倍,其预计存储芯片行业的市场规模将在2025年创下历史新高。

点评:DDR内存用量的增加也将提升对内存接口缓存芯片的需求,叠加DDR内存从DDR4向DDR5升级的确定性,DDR内存接口缓存芯片市场也迎来高增长。由于下游需求持续低迷,海力士、美光、旺宏、华邦电等各大存储芯片大厂均缩减资本开支、调低产能利用率,未来随着各大存储厂商主动去库存和减产,供需关系有望持续改善。业内人士普遍预计,今年下半年或见存储价格的拐点,AI新需求有望推动存储周期复苏。概念股包括兆易创新,国科微,澜起科技等。

NO.3 国家能源局综合司、交通运输部办公厅联合发文,部署节假日期间新能源汽车充电服务保障有关工作。要求加大公共充电设施建设力度,加快补齐县城、乡镇建设短板,推动旅游景区及周边停车场充电设施建设;加快推进公路沿线充电基础设施建设完善,在城市周边及充电需求较大的高速公路服务区科学设置大功率充电设施,提升充电效率。

点评:新能源车市场正处在跨越鸿沟的关键节点,解决快充短板是赢得主流消费者支持的重要条件。快充的实现需要动力电池和充电设施的共同发力,在实现高倍率电芯技术的同时,还需要升级车桩两端的电压平台以满足快充过程的高功率需求。800V平台带动车桩两端关键组件升级,电源模块、驱动电机、充电桩和高压熔断器等设备、零部件的升级改动较为关键。概念股包括欣锐科技,永贵电器,特锐德等。

宁德时代(300750):4月24日公司在互动易上回应投资者关于原材料价格下跌对公司业绩的影响问题。公司表示,公司于 2022年末已充分考虑市场价格因素影响,根据《企业会计准则》的规定,存货成本高于其可变现净值的,计提相应的存货跌价准备;同时,公司成立库存管理委员会对库存从顶层进行整体管控,根据季节性变化灵活调整采购量,提高存货利用率和周转效率,在材料价格下行周期,公司已推动快速去库存并缩短采购周期。公司持续推动有竞争力的产品投放市场,同时维持合理的盈利水平,不存在大幅减值。

福耀玻璃(600660):4月24日,福耀集团在官微发布声明称,近期,网络上出现“曹德旺炮轰特斯拉涨薪”“宁愿捐款也不涨薪”等谣言,这些内容完全是凭空捏造,并以挑拨公众情绪的方式断章取义,恶意剪辑传播,严重侵害公司及公司董事长曹德旺的合法权益,给公众造成误导伤害。对于恶意加工和传播上述谣言的自媒体账号及网络平台,福耀集团要求立即撤下不实内容,并保留追究其法律责任的权利。

派生科技(300176):4月21日,广东省高级人民法院对派生科技集团有限公司(派生集团)和唐军、*等46人集资*、非法吸收公众存款、操纵证券市场、虚开增值税专用发票、虚开发票案作出终审裁定,驳回上诉,维持原判。其中,派生集团被判处罚金16.1亿元;派生集团原董事长唐军被判处有期徒刑二十年,并处罚金5150万元。据悉,唐军正是创业板上市公司派生科技的实控人。2012年,创立团贷网的唐军以213万元的价格拍下史玉柱的“天价午餐”,名噪一时。

康盛股份(002418):公司控股股东常州星河重庆拓洋拟将其合计持有的公司15%股份协议转让给丽数股权,并将持有的剩余全部上市公司7.63%股份表决权委托给丽数股权行使。公司控股股东将变更为丽数股权,实际控制人将变更为丽水市国资委公司引入国有资本控股,有利于增强金融信用和资金实力,提高抗风险能力。

赣锋锂业(002460):公司子公司赣锋锂电与呼和浩特市人民政府于近日签署《20GWh电池生产项目框架协议》,协议约定赣锋锂电在呼和浩特市行政区划内投资建设20GWh锂电池生产项目。项目建设内容包括锂电池生产车间、pack车间、系统集成车间、锂电池分析检测中心、锂电池模组及安全测试中心、锂电池研发中心及其他配套附属工业设施。

多利科技(001311):公司拟通过子公司盐城多利汽车零部件有限公司在盐城经济技术开发区新能源汽车产业园区新建汽车零部件模具生产基地项目,主要为整车厂提供汽车零部件模具配套服务,项目总投资6亿元。

剑桥科技(603083):公司拟将高速光模块及5G无线通信网络光模块项目未使用完毕的募集资金2.84亿变更投向光电子产业化基地项目,并降低原项目规划中25G和100G中低端光模块投入,进一步增加400G及以上非硅光的高速光模块投入,预留部分资金投入硅光领域的高速光模块设备。

龙建股份(600853):公司与俄罗斯天然气汽车运输联盟于1992年共同成立了黑龙江伊哈公路工程有限公司,公司持有伊哈公司59.47%股份;2019年公司在俄罗斯成立了莫斯科分公司,截至目前尚未在俄罗斯境内参与任何项目。

小商品城(600415):公司与浙江联通签订《战略合作框架协议》,拟合作建设运营“一带一路”国际数据中心;为推动国际数据中心项目尽快落地,公司拟投资5亿元设立义乌云带路数据科技有限公司。

南山铝业(600219):公司拟投资约60.63亿元建设山东南山铝业股份有限公司印尼宾坦工业园年产25万吨电解铝、26万吨炭素项目,并配套建设码头、水库和渣场等公辅设施。

湖南裕能(301358):公司拟通过全资子公司云南裕能新能源电池材料有限公司投资建设云南裕能新能源电池材料生产基地二期项目,项目总投资约80亿元。

爱康科技(002610):公司拟向特定对象发行股票募资不超过3亿元,扣除相关发行费用后用于湖州爱康2.42GW高效异质结光伏电池建设项目。

通威股份(600438):公司拟定增募资不超过160亿元,用于20万吨高纯晶硅项目、云南通威水电硅材高纯晶硅绿色能源项目(二期20万吨/年高纯晶硅项目)。

每日经济新闻