庆云古诗词

庆云古诗词

一张图读懂拓尔思年度报告 拓尔思年度报告

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

拓尔思营收,拓尔思2021年目标价,拓尔思的技术怎么样,拓尔思股份有限公司

  证券代码:300229          证券简称:拓尔思           公告编号:2023-051

  

  一、重要提示

  本年度报告摘要来自年度报告全文,为全面了解本公司的经营成果、财务状况及未来发展规划,投资者应当到证监会指定媒体仔细阅读年度报告全文。

  所有董事均已出席了审议本报告的董事会会议。

  立信会计师事务所(特殊普通合伙)对本年度公司财务报告的审计意见为:标准的无保留意见。

  本报告期会计师事务所变更情况:公司本年度会计师事务所由变更为立信会计师事务所(特殊普通合伙)。

  非标准审计意见提示

  □适用 R不适用

  公司上市时未盈利且目前未实现盈利

  □适用 R不适用

  董事会审议的报告期利润分配预案或公积金转增股本预案

  R适用 □不适用

  公司经本次董事会审议通过的利润分配预案为:以795,291,951股为基数,向全体股东每10股派发现金红利0.4元(含税),送红股0股(含税),以资本公积金向全体股东每10股转增0股。

  董事会决议通过的本报告期优先股利润分配预案

  □适用 R不适用

  二、公司基本情况

  1、公司简介

  

  2、报告期主要业务或产品简介

  报告期内,公司实现营业总收入90,726.83万元,较上年同期同比降低11.81%;实现归属于上市公司股东的净利润12,769.79万元,较上年同期同比降低48.04%。报告期末,资产总额为388,374.80万元,较上年末同比增长4.23%;归属于上市公司股东的净资产为268,707.46万元,较上年末同比增长4.83%。

  2022年度,公司紧抓国家数字经济发展新机遇,进一步夯实语义智能技术壁垒,基于公司“数据+知识”双轮驱动的技术路线、领先的大数据技术平台和数据资产,陆续推出多款数智云服务产品,为客户提供了高质量人工智能和大数据应用服务。并且,公司积极探索以大模型为基础的生成类应用新产品,致力于打造垂直行业的类ChatGPT产品,满足更多B端用户对于内容生成的需求。受宏观市场因素及部分项目延期验收确认等因素影响,导致公司报告期内营收水平和利润贡献较上年同期有所下降。报告期内,公司业绩变化的主要原因如下:

  (1)由于复杂严峻的外部环境影响,互联网和传媒用户因宣传引导工作需求增加,加大了信息化建设和数据购买服务的投入。公司媒体行业用户基础深厚,又具有高质量的全球新闻资讯云和数据服务,市场竞争力优势明显,媒体业务收入达1.06亿元,同比增长33.60%,呈现良好增长态势。金融、制造、能源等企业客户虽然也受到宏观环境的影响,但由于公司新发布了多款SaaS服务产品,通过加大推广,增加了新的销售机会,该版块业务收入达3.47亿元,同比增长0.88%,与去年业绩基本持平。政府和公共安全行业客户因受各地政府防疫开支成本加大,项目工程款无法正常支付,导致应收账款出现逾期情况或原有项目延期;又因宏观市场因素导致公司项目人员与用户现场见面沟通、上门实施等工作受限,部分项目交付推迟等原因,政府版块业务收入同比下降13.69%,公共安全版块业务收入同比下降31.84%。

  (2)2022年经营计划中,公司明确提出要全面加快云和数据智能服务发展。目前,公司的云和数据服务覆盖政务、金融、媒体、舆情、公共安全、专利六大版块的业务场景。报告期内,公司的云和数据业务收入达3.84亿元,同比增长1.4%,占营业收入比例为42.36%,占比同比提升5.52%,云和数据服务收入占比稳中有升。其中,金融、媒体、舆情三大版块的云和数据业务收入均实现了增长创新高。金融版块因受宏观环境影响,银行客户加大了在金融风控方面的资金投入。同时,各地政府、银行、智库等客户积极开展产业大脑建设,对产业、企业、政策、舆情、资讯等数据需求加大,金融版块的云和数据业务收入达3,550万元,同比增长387.36%,业绩发展迅猛。媒体版块因受内外部环境形势影响,客户的宣传工作需求大量增加,媒体用户加大了对全球新闻资讯数据购买力度,媒体版块的云和数据业务收入达9,567万元,同比增长89.88%,业绩增速明显。舆情版块因受宏观环境影响,各地政府、大中型企业等客户为提升信息公开和舆情应对能力,加大了对网络舆情监测和态势感知的服务购买力度,舆情版块的云和数据业务收入达8,402万元,同比增长64.80%,业绩稳步增长。在创新业务中,公司面对外部环境变化和行业承压的双重挑战,深挖客户精细化管理需求,实现创新业务的快速突破,如专利云服务自2022年9月发布以来,业务收入达211万元,实现了0的突破,新产品开始贡献业绩。目前,专利云服务的主要客户为企知道网络技术有限公司(以下简称企知道)。企知道公司通过购买拓尔思专利云服务为其服务的众多生物行业用户提供技术创新、知识产权等领域的联结服务。

  (3)公司加速了人工智能技术在多元化场景落地的推进,尤其是AIGC领域的创新,如在媒体领域的机器写作与自动报告生成、政务领域的对话式AI机器人以及内容人机协同等应用。公司在AIGC领域(机器写作、自动报告生成、对话式AI机器人、虚拟人播报等)的用户数已达103家,业务收入达852万元。2022年发布的9款SaaS服务产品中,有8款是融合了大数据和人工智能技术,如麦文智创云服务作为一款农产品电商直播脚本的自动写作产品,在第七届广东省农村电子商务峰会暨数美汕尾助农电商消费节上正式向社会各界发布,得到业界一致好评。公司凭借“麦文智创”入围“广东农电奖”获奖名单,荣获“数字乡村金翼奖”。同时,公司与广东省南方乡村振兴促进中心、广东省农村电子商务协会、广东省电子商务协会等社团展开了积极的战略合作。目前,“麦文智创”已在广东省多个县域展开试用。

  公司作为人工智能、大数据和数据安全产品及服务提供商,为各行业用户的数智化赋能。公司业务根据行业应用的不同,可划分为数字政府、融媒体、金融科技、数字企业、公共安全五个版块;根据技术领域的不同,可划分为人工智能、大数据、数据安全、信创四个领域;根据服务模式的不同,又可划分为软件产品、大数据服务、订阅制SaaS服务、软硬一体化产品四种模式。

  (一)行业应用

  1、数字政府

  数字政府是公司的成熟业务版块,主要面向各级政府和职能部门提供政府网站集约化、智慧监管、政务舆情、产业招商、数字机关等领域政务应用的解决方案、软件产品及数据服务。政府网站集约化主要包括政府网站群、政务公开平台、政策文件库、政务新媒体矩阵、政民互动、用户智能推送服务、政务虚拟人等。智慧监管主要聚焦金融监管,具体包括非法集资监管和非法金融活动监管。政务舆情主要帮助政府单位及时了解公众对政府的重大政策、重要决策部署、政务工作的评价、社会公共事件的意见、情绪与观点等进行网络政务舆情监测,帮助用户有效监测舆情态势。产业招商主要帮助政府招商部门、产业研究部门等围绕产业发展全生命周期,基于产业经济发展科学规划,实现产业招商、产业治理、政策惠企与精准施策、区域强链补链、产业经济运行监测全流程数字化、智能化、精准化,帮助建立“一企一档、一人一档、园区档案、政策档案、产品档案、机构档案”,为地方产业发展提供一站式精准服务。数字机关主要包括政务运行知识底座、政策智能研读、机关事务知识问答、政务知识搜索等,为提高共性办公应用、机关运行效能、政府决策科学化水平进行数智赋能。目前,公司的数字政府业务主要以“软件产品+大数据服务+订阅制SaaS服务”的融合模式为客户提供服务。

  报告期内,政府网站集约化用户已经覆盖80%的中央和国务院机构,60%的省级政府,50%的地市政府。金融风险防控全链条云产品用户已经覆盖了55%的全国省市两级金融监管机构。政务舆情用户覆盖了全国近50%的省级政府。政府网站集约化、金融监管、政务舆情在细分领域竞争优势明显,保持行业绝对领先的市场地位。产业招商、数字机关建设全国尚未大规模展开,属于新兴发展业务。公司参与了浙江数改政务运行大脑的两大应用基座(公文智能搜索、公文智能标注)建设,为全省政务运行大脑上层业务系统所有的搜索与标签调用提供数智赋能,打造了数字机关建设的标杆样本,大规模市场示范效应可期。

  2、融媒体

  融媒体是公司的成熟业务版块,主要面向各级新闻媒体单位围绕新闻生产策、采、编、发、评、运、屏全流程提供融媒体内容生产、用户行为资产、媒体大数据等综合服务。融媒体内容生产服务平台是以内容资产为核心的新一代数据型媒体业务平台,涵盖了报、网、端、微、视和自媒体平台的全流程内容生产发布管理,该平台由数据资源聚合、融合生产创作、选题策划分析、传播效果分析、协调指挥调度、用户资产运营、大屏综合管理等多个平台组成。用户行为资产管理平台是从各个媒体传播渠道搜集的读者用户的静态信息和用户行为信息进行汇集和整理,基于海量用户特征和挖掘技术对用户建立标签化信息全景,形成360°用户画像完善的数据管理及输出流程,满足个性化推荐服务等多种业务应用的需要。媒体大数据云服务是以“多维知识库+智能语义”的方式对资讯数据进行结构化标引,通过对数据的精细化运营加工,提供多元垂直数据型分析应用场景,贯穿媒体业务的各个环节,为媒体用户提供高信源、精加工、个性化的数据产品云服务,提升媒体大数据的价值密度。目前,公司的融媒体业务主要以“软件产品+大数据服务”的融合模式为客户提供服务。

  报告期内,公司融媒体用户已经覆盖了72%的中央媒体,61%的省级媒体,40%的行业媒体。

  3、金融科技

  金融科技是公司的成长业务版块,主要面向银行业金融机构提供智能风控、智能消保、普惠助贷、绿色金融等金融科技领域的软件产品及数据服务。智能风控云服务主要面向银行、投研机构提供全面监控海量金融实体多维风险,实现高频异构数据自动化分析、风险知识化分析、跨场景知识延展和异动风险监测。智能消保管控中台面向银行业消保、业务部门,打通各业务系统消保数据,从非结构化投诉数据挖掘相关知识并分析应用,实现对各渠道消保数据数据的科学精细化管理。普惠助贷与绿色金融主要面向银行基于特色产业标签与企业价值分析模型,快速挖掘绿色产业、高新技术产业细分领域下的潜力、低风险、优质客群,精准放贷。目前,公司的金融科技业务主要以“软件产品+大数据服务+订阅SaaS服务”的融合模式为客户提供服务。

  报告期内,公司智能风控业务的用户已经覆盖了5大国有银行、3大政策性银行、50%的股份制商业银行。

  4、数字企业

  数字企业是公司重点拓展业务版块,主要面向能源、消费电子、餐饮等行业用户提供智能内容管理、企业融媒宣传、企业声誉风险管理、企业开源情报等企业应用。目前,公司的数字企业业务主要以“软件产品+订阅制SaaS服务”的融合模式为客户提供服务。

  报告期内,公司数字企业版块由“软件产品+解决方案”的服务模式加快了向云服务的转型,订阅制SaaS服务用户已经覆盖了中国能建、中国铁路、国投集团、国家电网、南方电网、中国人民保险、潍柴动力、海尔集团、鲁信集团、百胜集团、中国通用、上汽通用、九毛九集团、山东航空、浙江国贸等大型企业。

  5、公共安全

  公共安全是公司的成长业务版块,主要面向网信、公安、防务等涉密和安全机构,提供公安情指舆、开源情报、知识图谱、数据安全等领域的产品和数据服务。目前,公司的公共安全业务主要以“解决方案+软硬产品+数据服务”的融合模式为客户提供服务。

  (二)技术领域

  1、人工智能

  公司具有20年的自然语言处理(以下简称:NLP)研发经验,是国内最早研发人工智能技术的企业之一,在NLP、知识图谱、OCR、图像视频结构化等领域都具备自主可控的多模态内容处理底层技术,处于行业领先地位。公司一直密切关注人工智能的前沿技术发展,并积极探索相关技术在产品及业务中的应用。报告期内,公司在人工智能领域开展了6项重要工作,具体包括预训练大模型和专业模型的融合实践、启动公司自有专业模型trsGPT研发、开发具有AIGC能力的虚拟人开放云服务平台、开启生成式大模型创新应用规划、发布了多模态人工智能技术平台、推出了基于事理图谱的事件推演分析系统,取得一定成绩。

  (1)预训练大模型和专业模型的融合实践

  公司通过使用开源预训练大模型的基础上,在通识数据(各种百科+新闻数据+问答数据)的基础上,增加了大量舆情领域的行业数据,进行舆情专业模型预训练,将经过指令微调和人工反馈优化后的专业模型迭代到政务舆情项目中进行商业落地实测。在某省某项目的运行过程中,结合实际应用不断强化反馈学习,系统实测数据表明公司的政务舆情专业模型比开源模型在下游多个类型的舆情任务上的准确度平均提升了3%。

  

  图:通用大模型+专业模型在商业落地的融合流程

  (2)启动公司自有专业模型trsGPT研发

  通用大模型使用的大规模训练语料来自互联网公开的通用数据,提供的是通用能力,适用于通用场景应用,在行业应用的专业度、精度、深度方面存在局限。公司积极拥抱大模型发展,启动了trsGPT的研发,其技术栈可以分为5层:

  ●应用层:将trsGPT生成的trsGPT-G(政务专业模型)、trsGPT-F(金融专业模型)、trsGPT-M(媒体专业模型)三大行业模型(可通过接口)集成到自研云服务或面向用户的应用程序,运行自有模型或通过第三方接口运行模型,帮助用户使用trsGPT带来的人工智能协作能力和生成能力,形成各类行业应用,如公文辅助写作、投研自动报告生成、智能投研问答、新闻资讯知识型搜索、以文生图配稿等。

  ●接口层:将应用层和模型层衔接,方便应用层调用,使得开发者和用户能够以编程方式与模型进行交互。这可以简化trsGPT在实际应用中的部署和调用,从而降低使用门槛。

  ●模型层:trsGPT支持接入各类主流大模型,包括各类开源或非开源模型,以及各种模型的共享平台。大模型负责向trsGPT模型输出模型能力,trsGPT模型更精确地处理自己“擅长”的任务。这一层提供了不同的模型数据和功能,通过接口层为应用层提供专业模型的功能支持,包括各种调用API和数据中心调用工具,同时提供对应的提示工程接口和模型精调接口等。

  ●框架层:提供训练或云部署的深度学习框架和中间件等,包括PyTorch、TensorFlow等知名深度学习框架和中间件。

  ●计算层:为模型层提供模型计算和调度的各种算力支持,为训练AI模型运行训练和运行推理任务提供基础设施。计算层包括了各种云计算平台和计算芯片。

  

  图:trsGPT技术栈

  (3)开发具有AIGC能力的虚拟人开放云服务平台

  近年来,公司以数据智能应用为核心赋能不同行业的数字化转型与降本增效的场景应用,积极与客户携手在AIGC相关领域,如机器写作、对话式AI、内容人机协同和自动报告生成等应用场景相继打造出一批实践案例。2022年公司尝试在自研的自动写作产品基础上,基于大模型进行融合迭代,进一步提升现有AIGC产品的内容生成质量,取得一定效果。

  

  图:拓尔思AIGC实践案例

  同时,公司还推出了具有AIGC能力的虚拟人开放平台,通过对行业知识图谱的构建,赋予虚拟数字人知识储备、语义理解、推理分析、自主决策和交互表达的智慧能力的“实用灵魂”。虚拟人可以被赋予很多场景应用和特定角色,如媒体行业内容自动创作及播报等。目前虚拟人云服务支持虚拟主播、虚拟直播、直播问答三种形式,通过虚拟人制作的一站式服务,使得从选“人”到成片成为流程闭环,为用户的操作提供了最大便捷。拓尔思虚拟人已在北京冬奥会、2022卡塔尔世界杯和两会等重大赛事、活动中亮相,并受到公司媒体和政府用户的关注,也已在深圳大鹏新区政府、深圳审计局等政府网站中上线。

  (4)开启生成式大模型创新应用规划

  2022年初,公司就开始探索AIGC在更多商业场景的落地。针对乡村振兴农村电商直播场景中,大多数素人农产品主播受文化素养瓶颈限制,缺乏专业产品知识,在直播中无法讲出带货产品特性、差异和价值,导致产品吸引力不够,购买率低。为了解决他们长时间直播无话可说或只会吆喝式叫卖的问题,公司研发了一款农产品直播文案智能创作云服务产品――“麦文智创”。“麦文智创”主要面向广大农产品主播提供直播文案在线智能创作服务,以权威、翔实、丰富的农产品知识库和语义智能技术为底座,用户零输入,只需选择直播产品的品类、名称和直播风格属性,直播文案可秒级生成。平台提供人机交互服务,用户可对AI自动生成的脚本进行内容丰富与调整。同时,平台还提供错词、违禁词在线校对,帮助主播避免直播违规风险。目前产品一期已上线运行,广大农民主播可通过PC电脑、微信小程序进行在线服务体验。同时,公司还启动了公文辅助写作、政策研读、智能投研、康养服务等领域的AIGC产品规划。

  (5)研发了多模态人工智能技术平台

  公司进一步融合深度学习技术,推出了智拓人工智能技术平台,围绕NLP、知识图谱、图像检索三大核心技术,结合机器人流程自动化技术,面向不同应用场景,提供文本、音视频、多模态等AI服务能力。

  

  图:拓尔思自然语言处理产品组件

  

  图:拓尔思图像处理产品组件

  

  图:拓尔思视频处理产品组件

  (6)基于事理图谱的事件推演分析系统

  公司推出了基于事理图谱的事件推演分析系统,是一款事件推演分析SaaS云服务平台,主要面向安全领域,融合信息采集、自然语言处理、事理图谱、深度学习等技术,构建更符合中文特点的事件分类体系、高质量的中文事件库和表征事件之间关联的事理图谱,实现安全情报事件智能化分析。在中文事件库和事理图谱的基础上,系统提供专题事件分析、事件GIS态势感知、热点事件发现、事件预警、事件推演、事件预测等可视化分析工具,提高了情报的价值转化效率,为辅助决策提供数据和技术支撑。

  2、大数据

  公司成立之初就从事中文全文检索技术的研发,是国内最早从事该技术领域研发的企业。在大数据技术平台方面,公司拥有完整的大数据产品矩阵,涵盖数据采集、汇聚、加工、治理、存储、共享、开放等全流程。在数据资产方面,公司2010年就自建了大数据中心,以长期服务多行业用户持续积累的开源数据为基础,拥有了规模及质量均位列业界前茅的公开信源数据,目前数据总量超1400亿,并仍保持日均亿级数据的采集增长。

  公司所有的公开信源数据通过加工处理,推送到三大经营性数据资产平台(媒体资讯、舆情、产业大脑)中,通过不同专业模型转化成不同领域的知识数据,实现数据从资源性到经营性的数据资产变现。报告期内,在技术产品方面,公司进一步增强了数据中台多模态数据管理的能力。在数据流通方面,已实现了三大经营性数据资产平台(媒体资讯、舆情、产业大脑)的全面SaaS化,如媒体资讯类服务提供了200余种API服务,涵盖基础数据服务、增值场景服务、智能分析服务、传播分析服务、专题分析服务、定向采集服务,全方位赋能多元内容业务场景,为用户提供丰富的选择。目前公司媒体资讯类的Open API已在北京数据交易所挂牌,公司更多数据产品在上海、深圳、郑州等地数据交易所挂牌的工作也在积极推进中。

  

  图:拓尔思三大经营性数据资产平台

  3、数据安全

  在网络信息内容安全治理方面,公司主要聚焦网络低俗*、饭圈乱象、网络暴力等网络生态问题的监测、追踪和分析。在内容安全审核方面,公司的文字校对云服务平台能够比较准确、全面、智能地对发布内容中进行内容审核,包括文字类差错,如错别字、音近字、形近字、多字、重叠、颠倒、繁体词、异形词等;敏感词过滤,如涉及暴恐、*、违禁、侮辱、歧视等不健康用词,落马官员等;知识错误,如表述不当、搭配不当、语义错误、术语名词、地名等;常识错误,如标点符号、数字、量词、计量单位、大小写、时间表述等内容。在网络安全方面,公司子公司天行网安是国内最早从事网络安全和数据交换的企业,发明了国内第一台安全隔离网闸,在数据视频交换、单向导入等方面具有雄厚的技术实力。目前公司主要面向政府、公检法、海关等单位提供以数据交换为核心的边界安全、物联网安全、大数据安全三大阵营产品线和解决方案。其中,边界安全产品在全国公安边界安全市场处于领先地位。受益于国家对数字中国建设的重视,天行网安充分发挥自身在公安行业的优势,积极参编GA/T1788.3等标准,并致力于服务公安边界安全建设。

  报告期内,天行网安参与了32个省市160多个地市的边界安全建设,为“雪亮工程”、“智慧平安”及“沿海防控”重点项目贡献了天行智慧。天行网安和江南大学人工智能与计算机学院共建联合研究室,双方将就机器学习、AI算法研发、安全风险识别、用户实体行为分析、智能安全监测以及态势感知等安全产品进一步研究合作,共同引领安全产品智能化转型升级。天行网安推出的“天行隐私计算平台”(Topwalk-PPCP)顺利通过“联邦学习”基础能力专项评测,

  可基于安全多方计算与联邦学习,实现隐匿查询、隐私求交、联合建模、模型预测等功能,提供全流程的数据共享服务,让各参与方在数据不见面的基础上实现数据价值共享,有效解决实际业务中的“数据孤岛”问题,进一步助力了数据在跨网、跨部门间的数据流转共享。中国信通院“可信隐私计算评测”体系自2018年起逐步构建,是目前国内隐私计算领域最早、最全、广受行业认可的评测体系,目前已成为隐私计算领域权威的第三方评测品牌,为隐私计算行业的发展做出了重要贡献,成为供给侧产品研发和需求侧采购选型的风向标。天行隐私计算平台顺利通过评测,不仅充分印证了天行网安专业技术实力已经得到行业权威机构的高度肯定,还为各行各业客户选择专业数据安全服务提供了参考、引导和保障。

  4、信创

  自2018年我国将信创纳入国家战略以来,公司已经实现了主要软件产品与国内信创领导厂家的基础产品,包括海光、鲲鹏、飞腾、龙芯等芯片,以及统信UOS、中标麒麟、银河麒麟、中科方德等国产操作系统的适配工作。公司的海贝大数据管理系统是一款从内核到系统完全国产自研的搜索型数据库,是构建搜索引擎应用的核心支撑软件。作为一款纯国产自研的搜索引擎数据库,海贝大数据管理系统支持所有数据类型,功能完备,安全可靠,兼容主流国外搜索引擎数据库常用接口,对接主流生态。美国搜索型数据库产品【【淘密令】】(以下简称ES)利用开源优势,迅速成为该领域的全球领导者,我国使用量排名全球第一,且深度应用到各行业的关键系统。但ES是全球发生数据安全事件最多的数据库产品,导致我国数据安全风险极大。报告期内,公司拓展了不同行业的合作渠道,积极推进对ES搜索引擎数据库的国产替代。纯国产自研的“海贝”具备足够媲美的产品力,公司具有众多国家标杆项目成功经验以及本土化服务能力,完全可以平滑替代ES。

  (三)服务模式

  1、软件产品

  公司拥有人工智能和大数据技术领域的通用产品,包括海蜘大数据采集平台、海聚数据融合平台、海贝大数据管理系统、天骄数据中台、智拓人工智能技术平台等,在项目中主要用于构建人工智能底座和大数据底座,为上层业务应用提供数智化能力。公司还拥有数字政府、融媒体、公共公安等领域的行业产品,包括海云集约化智能门户平台、海融智能媒体融合平台等,主要聚焦特定的业务场景。报告期内,公司研发了多模态人工智能技术平台,主要加强提供计算机视觉(CV)和视频的智能识别、处理和分析的能力。目前,公司的软件产品主要按许可组件+套数的模式进行销售。

  2、大数据服务

  公司采集的公开信源数据通过加工处理,推送到数家资讯大数据云服务平台和网察大数据云服务平台中,通过不同专业模型转化成不同领域的知识数据,实现数据从资源性到经营性的数据资产变现。报告期内,公司研发了“产业大脑”云服务平台,形成了三大数据资产平台(媒体资讯、舆情、产业大脑)的格局。目前,大数据服务主要通过API接口以按次、按量、按时的收费模式进行销售。

  3、订阅制SaaS服务

  凭借公司的行业应用深耕以及对国家政策信号的敏锐捕捉,公司在2011年就推出了第一款SaaS产品――TRS SMAS(一款面向政府、企事业单位、个人提供基于社交网络的舆情分析云服务)。2015年,全资子公司金信网银推出了国内第一款非法集资监测预警云服务――“冒烟指数”。2017年,公司推出了数家资讯大数据平台。2018年初,公司提出坚持“大数据+人工智能”技术为行业赋能、“面向行业重度垂直应用”、“云和数据服务优先”的三大整体战略,同年推出了数星智能风控云服务和网察大数据云服务。

  报告期内,公司在经营过程中已经形成了一套“1+1=N”的数据要素商业模式。“1+1”是指一个大数据底座和一个人工智能技术底座。“N”是指行业SaaS服务集群,未来可实现N个云服务产品的拓展。“1+1=N”的商业模式主要依托拓尔思自建的大数据中心,基于自研的大数据底座和人工智能技术底座,面向政府、媒体、金融、企业等优势行业,根据不同


超大模型对比 最复杂的国产模型

超大模型对比图片,超大模型对比视频,超大模型制作,大模型 ai

  ChatGPT这把火,在国内越烧越旺。

  继阿里云“通义千问”在4月11日官宣之后,算上商汤早一天推出的大模型“商量”,百度3月份的“文心一言”,国内已正式上线了三家大语言模型。

  而坊间相关消息仍如雨后春笋,甚至有不少模型已是有名有姓,粗略数来多达六七家。

  短短三个月内,国内头部厂商扎堆挤上赛道,密集上线大语言模型,这到底是各家的技术创新集中爆发,抑或只是出于市场竞争压力?在国内GPU仍整体受限的情况下,缺乏算力支持的大语言模型领域为何看似一片繁荣?这波ChatGPT国产浪潮如何直面海外竞争,又将去往何方?

  大模型已上线三家,超五家背后排队

  我们先来梳理一下国内大语言模型赛道的现状。

  国内关于大语言模型的最早一批消息在今年年后。2月9日,科大讯飞向媒体透露,其AI学习机、讯飞听见等将成为公司类ChatGPT技术率先落地的产品,具体将于5月6日发布。

  3月中旬,百度率先推出了“文心一言”,正式开启国内科技企业的较量。

  不久后,在3月29日的2023数字安全与发展高峰论坛上,360创始人周鸿t以彩蛋形式披露自家GPT类模型Demo,现场用360浏览器演示了智能搜索场景,还对其中的部分回答内容“点踩”,表示并不满意。同时,周鸿t戏称此次演示只是把“孩子抱上给大家看看”,并不是要发布中国版ChatGPT。

  3月31日,有消息称网易有道教育场景下类ChatGPT模型“子曰”将于近期推出,基于“子曰”大模型研发的AI口语老师和中文作文批改DEMO已完成,将在近期开放内测。

  4月8日,京东集团副总裁何晓冬在人工智能大模型技术高峰论坛上也透露,京东将在今年发布新一代大模型“ChatJD”,定位为产业版本ChatGPT。

  4月10日,旗下拥有浏览器Opera、社交娱乐平台StarX等产品的互联网平台出海企业昆仑万维官方宣布,其与奇点智源合作自研的国产大语言模型――「天工」3.5即将发布,并于4月17日启动邀请测试。

  而在近日,华为云官网下的“盘古”系列的NLP(自然语言处理)大模型、CV(机器视觉)大模型、科学计算大模型被标注为即将上线状态,外界猜测这意味着华为即将加入大模型竞赛。

  甚至短视频与信息分发领域的王者,字节跳动也被曝年初就已开始组建专门的大模型团队。其中大语言模型方向由字节搜索部门牵头。还有消息称,原阿里达摩院科学家,超大规模多模态预训练模型M6的技术负责人杨红霞已加入该团队。

  国产大模型多为ToB,且“每家必备”

  纵览上述信息,这波国产大语言模型浪潮的第一个显著特点自然浮出水面――

  当前,国产大语言模型均未对公众大面积开放,也没有明确的ToC(面向公众)入口,未来发展大多也走ToB(面向企业)路线。

  当前已正式上线的三家中,百度、商汤有关负责人曾向南都记者表示,自家大模型为toB产品。阿里方面在4月11日举办的阿里云峰会上也宣称,未来“通义千问”将主要面对企业定制个性化服务。

  而在已有消息的几家中,科大讯飞网易有道两家皆已透露了基于公司类GPT技术所要落地的产品;京东的“ChatJD”明确定位为产业版本ChatGPT;华为虽未透露更多大模型信息,但其模型所属的“盘古”系列早在2021年就已上线。

  而根据华为云人工智能领域首席科学家田奇在2023年人工智能大模型技术高峰论坛上的演讲,“盘古”系列下的NLP大模型主要面向智能文档搜索、智能ERP(企业资源计划系统)、小语种大模型等行业,多处理类案检索、企业财务异常检测等商业场景。

  因此,整体看来,国内大语言模型赛道的公司在开发模型后,更倾向于将相关模型嫁接到自家的C端服务中,或者走私有化部署、企业定制等路线。

2023年人工智能大模型技术高峰论坛田奇演讲

  而在与海外相同赛道的公司对比之后,不难得出第二个特点――相比海外,国内厂商更倾向于“每家必备”一个大模型。

  当前,海外头部科技公司如OpenAI、谷歌等,其开发都以基础模型(Foundation Models)为主,不管是ChatGPT、Gpt4,还是PaLM-E,都是类似AI基础设施的基础大模型。其他公司,要么索性走开源社区的路线,要么像美国云服务巨头Salesforce一样,直接与OpenAI合作接入ChatGPT使用。在某种程度上,可以说是“大家都在规定范围里各自赚钱”。

  国内的互联网生态则不同。中科深智创始人兼CEO成维忠向南都记者表示,国内但凡涉及数据等核心能力,哪怕一个公司再小,也一定会为自己建设一套完整系统或是框架,这可能是出于“互相抢夺市场以固定地盘”的需要。因此,国内基于大数据等核心能力的服务本身是割裂的,其规模效应也远远赶不上美国同类企业。

  “比如刚才说的Salesforce已经是ToB领域中的世界级公司了,但如果中国有Salesforce的话,它一定会自己做个大模型。”成维忠说。

  基于这种“每家必备”的特点,成维忠认为,当前国产ChatGPT的浪潮更可能是一种“市场行为”,也就是说,国内企业更倾向自己独立做一个大模型,并不考虑用其他方服务。而如此密集的上线行为,或是出于资本市场的压力。

  “从公司战略角度来说,不太可能急赶急地推出大模型,而且很多公司推出的大模型里无所不包,我觉得这在短期其实是做不到的――很大程度上应该还是在回应客户的市场压力,同时很多上市公司也面临着资本市场的压力……当然,ToB或者说私有化部署、定制这条路线对技术的要求也会低一些。”成维忠表示。

  国产ChatGPT如何应对海外竞争?

  无论是客户需求还是资本压力,AIGC(AI生成式内容)、大语言模型显然已成为一块价值飙升的市场,那么,紧锣密鼓上线的国产ChatGPT们,是否将直接面对来自全球的激烈竞争?

  在成维忠看来,竞争毫无疑问已经开始,且无法避免。因为这是一个类似芯片的市场,对于最终应用的能力影响极大。尤其是在ToB端,基础大模型级别的ChatGPT、GPT4,偏向应用层的Midjourney、Stable Diffusion对于企业来说都已经是被市场验证过的,效果极佳的工具,那么在这种情况下,国内市场被主流大模型及应用侵蚀掉一部分就是必然的。

  不过,技术产品要抢夺海外市场,绕不开数据安全、数据保密等问题。不久前,意大利就宣布封禁ChatGPT,德国、法国、爱尔兰、西班牙等国家也紧随其后,开始考虑对AI聊天机器人采取更严格的监管。

  出于这方面原因,昆仑万维CEO方汉认为,海外的AI模型进国内市场首先需要合规,还会牵扯到很多隐私和数据安全问题,因此对于这一赛道,海内外企业其实很难直接发生竞争

  在谈到涉及大模型开发的另一重要影响因素――算力时,方汉坦言,当前国内确实还处在一个GPU整体受限的情况下,之所以当前大语言模型能呈现出一种比较繁荣的景象,是因为目前国内还有不少存量GPU,足以支撑目前这一波的大语言模型训练。

  “当然,如果制裁长期持续,肯定会对后续的大模型训练造成影响,不过现在国产的训练芯片也在迅速发展,像华为、寒武纪、阿里等等都可以作为替代。而且,就算计算硬件不行,只要软件优化能跟得上,我觉得大模型领域仍然会持续进行高速发展。”

  大语言模型,出路在何?

  书到最后,两位资深从业者也向南都记者描述了大语言模型的未来。

  方汉认为,大语言模型将深刻影响两个方面。

  第一,非常基础的互联网应用“搜索”。事实上,“搜索”已经近20年没有出现过大的变革,其基本的流程也就是用户打开对话框,输入关键词获取结果,业界这些年也一直都在卷搜索速度、精准度等等。但现在,大语言模型彻底改变了“搜索”――以前是打开搜索引擎获取所需信息,现在可能就会打开大模型,或是集成了大模型的搜索引擎,不仅能获取所需信息,还能通过持续不断的对话不断*。

  第二,方汉认为,大模型改变的并非一个独立的应用市场,而会对现有的全部应用市场进行改造。对此,成维忠补充表示,在ChatGPT火了之后,其实很多人都忽略了OpenAI推广的Plugins.它整合一系列第三方工具,其中包括不少企业应用、图像处理等多方面的插件,能够帮助用户人员更轻松通过ChatGPT调用第三方工具软件。

  “这就相当于打造一个超级入口,在未来,可能各式各样的App应用都能接入或者被接入ChatGPT,这就有可能永久地改变整个互联网的生态。”成维忠说。

  再回看这次国产大模型浪潮,成维忠认为,即使在未来能赶上主流模型的差距,也不会像美国那样呈现出OpenAI一家赋能其他科技巨头的趋势,更可能变成若干个大厂一起服务中小型企业和传统企业――这就使得中国出现一个大模型的经济回报远小于海外。

  那么,这次国产大模型浪潮还能持续多久?在成维忠看来,这就得看各家的“信仰”了。因为这不是一个单纯的技术问题,而是一个巨大的、持续的投资决策,到底哪些公司有决心一直投入下去,还很难判断。

(文章来源:南方都市报・湾财社)