在计算机视觉领域,比较知名的是商汤、旷视、云从、依图这“四小龙”,他们不仅知名度更高,收入水平和估值也更高。从最新的财报来看,这四小龙都不同程度陷入了困境,收入增长乏力,巨额亏损看不到扭转的态势。
四小龙所遇到的困境,某种程度上是计算机视觉这个赛道本身面临一些商业落地的挑战。又或者,计算机视觉领域本身在进行结构化的变动。
我们关注到一个不那么知名的计算机视觉厂商——格灵深瞳,从其最新的财报来看,虽然整体体量还不如商汤、旷视,但其发展态势比较好。接下来,我们来深入分析一下这个公司,看看它有什么不同。
近几年,格林深瞳的收入在持续增长,而且增速还不错。在一些创新型领域,持续、稳定的收入增长始终是最重要的。高收入增长、高研发投入、高营销费用,是企业业务规模扩张阶段典型“三高”特征。在这个前提下,适当的亏损是可以忍受的。当然,特别夸张的巨额亏损,甚至引发现金流危机,那也存在严重的问题。
2023年上半年,格林深瞳收入1.57亿,同比增长34.35%,净利润193.8万元,同比增长115.28%。作为对比,2023年上半年,商汤科技收入14.33亿元,同比增长1.26%,亏损31.23亿元;云从科技收入1.64亿元,同比下降58.16%,亏损3.15亿元。
格林深瞳收入情况
虽然跟商汤、旷视相比,格林深瞳的收入体量还小很多,但目前其发展态势较好。并且,格灵深瞳已经扭亏为盈了。无论是净利润,还是销售净利润,都得到了显著的改善。这个态势如果能够持续下去,格林深瞳将能实现稳定盈利,这对于计算机视觉企业而言意义重大。此外,格林深瞳近两年的销售毛利率也在稳步改善,这是一个不错的信号。
格林深瞳利润情况
我们从成本结构上,发现一个有意思的现象,格林深瞳在整体业务规模增长的同时,其销售和管理费用还降低了。尤其是管理费用,同比下降了18.79%,说明其经营效率得到提升。
但另一方面,一般而言,销售费用、管理费用会随着公司业务规模的扩张而扩张,降本增效有一定的限度,比如明年格灵深瞳的各项费用再压缩的空间就比较有限。公司的成长,核心还是在于收入规模的持续扩张。
格林深瞳成本结构
那么,是什么因素在驱动格林深瞳的成长呢?为了弄清楚这个问题,我们需要深入其业务结构来看。
从技术产品架构上,格灵深瞳底层是“深瞳大脑”,涵盖数据平台(数据采集、治理、标准)和训练平台(模型训练、优选择、管理),在此基础上不断优化其各项技术。这些技术的核心就是对应的算法模型,包括3D立体视觉、机器人感知与控制、大规模跨境追踪等。
再往上,就是格灵深瞳面向客户的三个标准化产品,分别是智源智能前段产品、灵犀数据智能平台、深瞳行业应用平台,在三个标准化产品基础上可以构建面向不同行业客户的解决方案。目前,其主要应用在金融、城市管理、商业零售、轨道交通四个领域。
格林深瞳技术产品体系
拆解格林深瞳的收入与成本结构,其收入1.57亿元,主要来自于人工智能产品,其次是技术服务。成本结构中,营业成本(主要是零部件采购)5973万,毛利近1亿元。各项营业费用近1亿元,其中研发费用7700万元,其次是销售费用2860万元,以及管理费用1697万元。
格林深瞳收入拆解
格灵深瞳要进一步提升利润空间,需要压缩营业成本占比,这需要其优化供应链,提升议价能力,同时可以通过自研部分核心零部件来降低采购费用;此外,销售和管理费用方面,可以通过降本增效来进一步压缩费用,但其改进空间已经不大。研发费用是格灵深瞳成本的重要部分,需要提升研发效率,提升单位投入的产出。
以上是格林深瞳的基本业务情况。接下来,我们就三个关键问题进行更深入的探讨。
1、该3D视觉登场了?
在众多计算机视觉技术提供商中,格灵深瞳凭借其对3D视觉的坚定押注而脱颖而出。尽管在前几年,3D视觉技术尚未得到广泛应用,但其潜力巨大。之所以3D视觉在初期没有成为主流,很大程度上是因为其对数据处理和计算要求较高,同时需要更先进的芯片和硬件支持,导致成本相对较高。同时,早期的3D视觉算法模型也不够成熟。
然而,与2D视觉相比,3D视觉有着无可比拟的优势。首先,3D视觉能够为物体提供深度信息,帮助实现准确的物体定位和识别。其次,它能够捕获真实世界中的物体结构,从而更准确地对物体进行建模和分析。此外,3D视觉还能提供更为丰富的空间信息,帮助进行更为复杂的场景理解和导航。
随着芯片技术的快速进步和软件算法的持续优化,3D视觉技术越来越受到关注。其应用场景也从单一的领域扩展到各个行业中。例如,自动驾驶领域中,3D视觉可以帮助汽车更好地理解路况,预测行人和其他车辆的行动。在医疗领域,3D视觉能够为医生提供更为真实的人体结构图,帮助他们进行准确的手术。此外,3D视觉还在建筑、娱乐、零售等众多领域中得到应用。
某种程度上,计算机视觉领域正在经历一个从2D升维到3D的技术和产业变革。随着技术的进步和市场的成熟,3D视觉已逐渐从一个前沿技术发展为一个广泛应用的解决方案。这种情况下,格灵深瞳前期在3D视觉领域的积累,有望让其在这个市场阶段取得竞争优势。
2、布局大模型,但投入不足
在格灵深瞳的财报中,有一些涉及到大模型的零星描述。例如,其深瞳大脑可支持几十亿参数规模的模型训练;基于 Transformer 的多层特征投票机制提升正确匹配点云比例,提升点云配准精度。目前,格灵深瞳也在研发图像预训练大模型,用于视频分类、图片分类、少样本检测模型、少样本事件任务等场景中。
目前情况来看,大模型还不是格灵深瞳的研发重点,而且其研发团队总共300余人,年研发投入才1亿多元,还不足以支撑其在大模型领域的前沿技术探索。
笔者在《中国CV军团,危矣?! 》一文中提到过,大模型是深度学习的进化形态。目前,大模型的成果主要在自然语言领域,明星产品就是ChatGPT。从技术原理上来看,应该也有计算机视觉领域的大模型。并且,结合NLP和计算机视觉技术,是构建多模态大模型的一个重要方向。
但是,要实现这个目标,还有很多技术难题需要解决。Transformer是专门针对自然语言领域的,是否能基于Transformer来构建计算机视觉领域的千亿级参数规模的大模型,还是一个未知数。要构建这样的计算机视觉大模型,很可能需要对底层的Transformer架构进行改造,甚至研发出完全不同的基础架构。
当然,如果某个计算机视觉厂商能够解决这些问题,首先推出千亿、万亿级参数规模的CV大模型,在技术性能和应用效果上实现质的飞跃,那对行业所带来的震撼绝对不亚于ChatGPT。
从目前情况来看,国内也有几家计算机视觉厂商在推出大模型产品,但是他们的思路基本都停留在模仿、跟随ChatGPT的阶段,基于Transformer来推出一些几百亿甚至只有几十亿参数规模的大模型,毫无新意可言,注定在市场上激不起浪花。
3、安防,是计算机视觉最大的应用场景
最后,我们来从应用场景角度来探讨一下计算机视觉赛道的未来发展前景。
笔者一直认为,安防是计算机视觉最大的一个应用市场。但要激活这个市场,有一个前提,就是安防摄像头的智能化。
现在的安防系统,摄像头的核心功能就是视频录入,然后将视频传输到后台进行存储和分析。视频数据尤其是高清摄像头产生的视频数据,往往数据量庞大,如果视频数据都要传输到后台才能进行分析,那数据传输和存储的压力就会非常大。
如果换一个思路,前端的摄像头就具备很强的视频分析处理能力,大部分的视频分析需求直接在摄像头终端就满足了,只有需要涉及到大数据分析的需求需要后台来处理,这样就将极大降低数据的传输和处理压力。
举一个例子,如果一个城市下发了某个犯罪嫌疑人的通缉令,那把数据传输到后端,然后向全城的摄像头终端下发识别命令。只要该人出现在某个摄像头的视野范围内,摄像头本身就能够完成识别、比对、验证功能,锁定犯罪嫌疑人,然后立马把地址、对应的视频数据传输到后台。多个摄像头之间,还可以自动形成局域网,分析出该犯罪嫌疑人的行动轨迹,并预测其下一步的行动方向,提前启动预测区域内的摄像头。这样一来,整个系统的效率将得到极大提升,而数据传输、存储的成本却显著降低了。
再来看另一个场景,在城市街头发生了一场车祸,交通摄像头通过行为、场景识别算法,立马识别这是一场交通事故,然后将信息上报交通管理后台,并同步给公安系统,摄像头还可以自动调整角度、焦距来对该事故现场进行清晰的录像,固定现场信息,作为后期事故处理的关键证据。相比于现在的交通事故处理方式(事故相关人员打电话报警,等待交警来处理),这一全新的方式效率更高,为交通事故的处理、急救争取了宝贵的时间,而且事故责任划分更加清晰,避免了后期的法律纠纷。
要实现上面两个例子中的场景,就必须要摄像头实现真正的智能化,能够具备识别、数据处理能力,一方面需要摄像头内置具有很强计算性能的芯片,另一方面还需要内嵌强大的识别、数据分析算法模型。同时,要通过技术创新和规模化量产,来降低智能摄像头的成本,只有成本足够低,才能实现规模化商用。
很显然,无论是硬件设备还是软件算法,目前的计算机视觉技术产品都很难达到智能摄像头的要求。但正因为困难,才更有价值。试想一下,如果哪个计算机视觉厂商能够解决这些技术挑战,推出价格低廉、性能强大的智能摄像头,那将重构整个智能安防市场,其发展潜力自然不可限量。
某种程度上,一个企业的价值来源于其能够解决的市场问题和满足的市场需求。解决的问题越困难,满足的市场需求越大,企业所能创造的价值也越大,其竞争壁垒也越高。