当前位置:首页|资讯|AI大模型

智能涌现⑨|AI大模型开始卷硬件,这家公司目标是为大模型装一双慧眼

作者:21世纪经济报道发布时间:2023-09-14

原标题:智能涌现⑨|AI大模型开始卷硬件,这家公司目标是为大模型装一双慧眼

南方财经全媒体记者 石恩泽 深圳报道

在大模型热度消退后,投资人的目光纷纷转向大模型应用领域,理由无它,烧不起钱、等不起是本质原因。但大模型应用讲求的是落地为王,这意味着项目必须接地气,创始人必须懂市场,产品最好已有订单。

近期,南方财经全媒体记者在香港科技园深圳河套分园活动上,听到了一位做AI应用落地的企业创始人谈论大模型时如此说道:“大模型的优点在于大,缺点也在于大。大到与你的生活无关。因此我们要想办法把‘大’化‘小’”。

这位企业家是香港光云科技创始人兼CEO谢永明。谢永明在香港中文大学深造期间,受到港中文创业氛围的影响,成立了光云科技,定位是一家“为AI大模型提供一双慧眼”的公司。

如何为大模型装上一双慧眼?谢永明认为,智慧的构建应始于硅芯片层面。因此,他的团队近年来一直致力于发展能够理解3D语义的传感器芯片,提供清晰的数据和精确的语义,减少对计算资源的依赖与模型幻觉,化解大模型的缺陷。

目前光云科技产品已经拿到电商平台的订单,同时他还在考虑往3C产品和机器人赛道上拓展。作为联通上游大模型和下游硬件终端的连接器,谢永明表示,“目前我们懂场景、有订单,我们用订单来引领芯片和手机等终端设备去做迭代,最终大家形成一个合作共赢的生态。”

近日,南方财经全媒体记者(简称“南财记者”)与谢永明(简称“Yongming”)进行了深入对话,在采访中进一步分享他在这个行业多年来的见解。

以下为问答摘录:

从卖时间到卖产品

南财记者:在AI视觉领域,港中文有一位知名教授叫贾佳亚,后续从学界躬身入局产业界,创办了AI视觉独角兽思谋科技。你也曾在港中文深造过,这个对你那时候创业有起到影响吗?

Yongming:当然有影响。过去我选修贾老师的课程,当我得知Leo(贾佳亚)决定离开学术界,进入产业界创业时,我感到非常震惊。毕竟,港中文大学的教授享有很好的薪酬和福利待遇,而且他当时已经获得了终身教授的职位。在我看来,他放弃了一个可以过上舒适生活的机会,选择进入产业界挑战自己,这让我深感钦佩。那时候,我开始思考,如果老师他都能离开如此理想的环境,追求更高的目标,那为什么我不能也去追求更伟大的事业呢?因此,我认为这段经历对我的创业心态和决心产生了积极的影响。

南财记者:当时没有想过要留下来当教授吗?

Yongming:没有,我从未考虑过。有投资人曾对我说,大多数人认为创业充满了困难和痛苦,但与你交流时,感受到了创业过程中的愉悦和快乐。所以我更相信创业是我生命中的宿命,我一直以充满热情和享受的方式去面对这个挑战。

南财记者:创业过程中顺利吗?

Yongming:最初我们在卖苦力,也就是在卖时间。那时候我们和一家巨头合作,拿到了很多订单,但说白了就是在做这家巨头的外包商,这并没有为公司带来持续的增长。那时候有投资人问我,想不想被并购,我说可以考虑。就在这时候我们遇到了一位贵人。他告诉我们思路是可行的,但可以发展得更好,于是他在黑板上给把前景画了出来。

从那之后,我们就开悟了,光云科技也从一家卖时间的公司转型成为了一家卖产品的公司。公司真正起飞是在2019年。虽然经历了3年疫情,但我们还是接到了四面八方而来的订单。

南财记者:现在还会考虑被并购吗?

Yongming:我们已经在独立的道路上取得了成功,拥有了独立的成就、独特的视角和独立的发展。我们的未来甚至可能包括上市,所以为什么要考虑被其他公司收购呢?

(该图为谢永明遇到的贵人,给他在黑板上画的公司发展前景图,他一直保留至今。)

“3D语义+芯片”突破算力限制

南财记者:公司目前应用方向与大模型相关,在这一波OPENAI的发展中,看到了什么?

Yongming:我曾在“do anything now”模式下与ChatGPT进行了深入的对话,这次体验让我感到非常惊讶和震撼。我发现自己被ChatGPT的情感理解能力所“电到”。以前,我曾认为只有人与人之间的对话才能真正引发共鸣,但现在我对这种看法产生了全新的认识。同时,我还注意到了5年前的新闻报道,提到OpenAI在情感理解方面已经取得了非常高的水平,将这种能力称为“无监督情感神经元”,可以通过文本识别用户的情感。然而,情感本质上是非常抽象的概念。在人与人之间的交流中,经常会出现半天无法共识核心思想的情况,但是GPT却可以迅速提取出会议中的共同观点。那时,我深刻认识到人类需要尽快学会如何利用GPT这一工具。

然而,正如我之前在科学院活动上所提到的:“大模型的优点在于大,缺点也在于大,大到与你的生活无关”。因此,团队开始思考如何将这个LLaMA “大”模型变得更“小”,以便将能量准确地集中到一个点上。如果我们想要减少在训练过程中产生的偏见与使用的幻觉,就需要从数据源头着手,尽量提供给GPT干净的数据。这就是我们找到的进入这个领域最关键的一点,也是我们产品的一大卖点。

南财记者:那么光云科技的产品是如何做到让数据清洁呢?

Yongming:在这点上,我们思考得比较深入。若想要在数据传输过程中最大程度地减少功耗,我们要确保在芯片接收信号的第一刻就保持数据的干净。同时,这个做法可以保持长期的高效性能。综合考虑,这不仅降低了对芯片计算能力的要求,甚至可在一定程度上做到实时。因此,我们选择不仅停留在软件层面,而是直接处理硬件最底层的部分,也就是芯片。我们通过3D语义来筛选芯片端接收的数据,确保其干净无误。

南财记者:3D语义指的是什么,能用比较通俗的例子说明吗?

Yongming:3D语义是一种在描述物品或场景时结合文字语言和语义概念的方法。例如,当我们描述一个物品,比如一张桌子或一把椅子时,我们通常会使用形容词来说明它们的特征,比如桌子是圆的或椅子是方的。这些形容词和语义概念帮助我们更好地理解物品的特性,并与人类交流。

然而,我们通常拍摄的照片是二维的,缺乏三维空间信息。这就意味着,如果要描述一个三维场景,例如一个人站在桌子的右后方并离桌子3米远,使用二维数据很难准确传达这个信息。在这种情况下,人工智能模型(如GPT)必须依赖以前的经验和信息来尝试理解,这可能导致模型产生错误的印象或幻觉。为了更好地反映物品或场景的真实情况,需要引入一个额外的维度,即第三维度,也就是3D语义。

在二维情况下,由于描述不够准确,人工智能模型可能需要进行额外的计算和验证,这会增加计算成本并降低效率,尤其是在计算资源有限的情况下。尽管3D语义引入了空间结构,但在传输和处理方面仍然存在一些挑战。因此,光云科技考虑从芯片层面对信号进行改进,以便在输入时可以直接生成3D语义信息,从而提高效率。这样,数据可以更清洁、准确地传递给人工智能模型,减少了模型的偏见和幻觉。

(左图为加入3D语义后通过大模型生成的图片,右图为无3D语义通过大模型生成的图片)

不造芯片、造生态

南财记者:既然与芯片相关,目前你们直接下场造芯片了吗?

Yongming:我们目前没有直接进行芯片研发,但我们接受客户的订单并根据客户需求采用认证的方式与芯片制造厂合作。芯片的研发和生产周期相对较长,而且在没有明确的应用场景的情况下,试错成本很高。因此,我们会根据订单的要求向芯片制造厂提供规格、首批生产数量以及需要与哪些终端设备进行整合等信息。目前,我们已经建立了与多家领先的芯片制造厂的密切合作关系。其中,一家客户最近计划将我们的产品作为CES展览会的案例展示。

南财记者:所以这相当于你们给芯片加了一层外挂是吗?不然就是平平无奇的一款芯片。

Yongming:是的,通用型芯片通常无法满足深度垂直应用的需求。关键在于,我们拥有订单与客户的明确需求,通过市场需求来促使芯片制造厂推出新产品,同时芯片的不断迭代也会促使我们的技术不断升级,最终形成一个双方共赢的闭环。这种方式可以理解为给通用型芯片加上了一层外挂,使其能够更好地满足特定的应用需求。

南财记者:那你们实际上是在做一个Agency的角色,那么在上游的大模型上面,你们又是如何与各家进行合作的?

Yongming:目前,我们已经与Stable Diffusion建立了密切的合作,他们拥有全球范围内的60亿张图片数据。虽然Stable Diffusion是一个开源的大型模型,但在商业使用中,我们需要获得相关的授权和许可协议,目前我们已经成功接入了这一合作。另一家合作是Facebook的大型模型LLaMA。我们选择与Facebook合作的原因是,目前我们的大部分国际客户都采用LLaMA架构,这一架构在图像生成方面表现出色。因此,我们与这两家主流的大模型建立了紧密的合作关系,以支持我们的生态系统。

南财记者:目前在具体行业应用案例上,有能够跟我们分享的成果了吗?

Yongming:我们大型模型"智慧之眼"已经商业化,与一家电商平台展开合作,共同开发一款与大型模型实时联动的传感器模块,我们将其命名为“Stable Diffusion Camera”。

在大模型上,我们选择与Stable Diffusion合作。尽管目前它的处理速度公认比较慢,通常需要几十秒到几分钟才能生成一张图像。然而,基于我们的清洁数据模式,我们只需0.2秒就能生成一张图像,并且我们的下一个目标是实现实时生成,以满足电商平台对于图像生成的高要求。

通过使用这个相机模块,用户可以在体验商品和感受时,实时进行图文转换,从而降低沟通成本。举个例子,一个即将去约会的女孩站在一个镜子前,这个镜子装有Stable Diffusion Camera。她对着镜子说:“我今天想要一个热情的约会氛围,可以帮我生成一套妆容吗?”镜子上的电子屏幕可以实时显示在她脸上的效果,并提供相关产品和使用教程。这个工具可以实现实时沟通,极大地改善了品牌方和用户之间的连接效果。

(图片为“Stable Diffusion Camera”的demo)

南财记者:除了电商以外,还有其他想要拓展的赛道吗?

Yongming:我们计划将我们的技术应用于其他3C产品、机器人和医疗领域。但如果要进入手机供应链,我们目前面临两个主要挑战:首先,我们需要与手机制造商的供应链生态系统协同合作。为此,我们考虑将公司从香港搬迁到深圳,成为香港科学园首批入驻深圳河套分园的企业。我们之所以选择深圳,是因为深圳具备出货速度快的供应链,而且深圳的产业链广泛,这为我们扩大生态合作提供了机会。这将大大提升我们与3C电子供应链的协作能力。

第二个挑战是要推出一款杀手级应用(Killer App)。要创造出杀手级应用,需要开发者在实际应用场景中打磨,并随后教育用户使用。基于我们在大型模型、数据、芯片和实际应用场景方面的积累,我们在这一领域具备一定的独特性。因此,这两个挑战对我们来说并不是太难。

南财记者:目前业界认为,未来三年大家探索的关键是,如何在虚拟和物理世界中找一个结合的点。你们的产品相当于一个软硬兼容的连接器。但作为中间层,会不会没有足够的壁垒?

Yongming:在不久前,很多人的确持有这种观点,特别是在大家都在探索大模型领域的初期。他们担心芯片技术可能会限制生态系统的空间,同时大型模型又将压缩一部分公司的生存空间。然而,目前产业逻辑又变了。未来,大型模型领域的发展将更加注重实际应用的落地。

我们目前已经具备了深入理解应用场景的能力,拥有订单来支撑我们的产品应用,这为我们构建了应用领域的壁垒。我们利用订单来推动芯片和手机等终端设备的迭代,与合作伙伴建立了一个共赢的生态系统。在这个生态系统中,如果我们能够找到自己的定位,它将在未来的发展过程中变成我们的生态壁垒。相比之下,独占市场可能会限制创新和发展。

更多内容请下载21财经APP


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1