6月下旬某个下午,阳光明媚,HiDream.ai的办公空间内,30余名对AIGC关注的创业者、科技极客、高校学者围成一圈,三三两两的交谈,他们是来参加Alpha Founders Club(AFC)的活动,本次活动主题为「由OpenAI看技术创新如何开启的最佳实践」。
Alpha Founders Club是阿尔法公社的传统节目,主要目的是无限拉近潜在创业者和天使投资人的距离,创造工业界和学术界一起深度交流的机会。有数位创业者通过此前的Alpha Founders Club获得阿尔法公社的投资。
此前参与到Alpha Founders Club活动的嘉宾包括:前微软人工智能首席科学家、IEEE Fellow邓力,中国科大党委常委、副校长吴枫博士,前微软亚研院副院长、国际欧亚科学院院士、IEEE Fellow李世鹏博士,以及神州数码信息服务集团总裁周一兵,哈佛商学院教授Scott Duke Kominers,哈佛商学院创新创业中心主任Jodi Gernon。
本次活动是Alpha Founders Club在疫情后重启的第一期,由加拿大工程院外籍院士,HiDream.ai创始人兼CEO梅涛与阿尔法公社创始合伙人许四清作为嘉宾与大家交流。
下午4点,许四清和梅涛院士与大家打招呼,活动正式开始。
一开场,许四清首先对中美AIGC早期阶段的投资动作进行对比:在种子轮和天使轮,中国最近2-3个月总共就投了20-30笔,而美国每个月都有30多笔,美国的投资人已经被唤醒,但一部分中国投资人仍然在犹豫。不过这也侧面说明在中国无论是创业还是投资,这一波AIGC的创投高潮还没有到来。
“它是现象级的!还没有融资,去年收入就上亿,今年的收入更可能翻一番。” 许四清高度评价Midjourney。他同时又表示:和Midjourney相比,就创始人段位来说梅涛院士是更高的,产品和模型能力上,HiDream.ai在未来也有望超越Midjourney。
很多投资人和创业者认为在AIGC领域创业就意味着必须烧巨量的钱,许四清从大模型训练的Pipeline切入,解释这是一种 “误区”的原因:在训练大模型时,99%的训练计算成本和时间都花在了预训练阶段,在此后的微调和对齐等阶段,所需要的计算资源是相对很少的。所以利用基础大模型进行微调,或借用大模型能力利用专有数据训练,其实成本很低。
他为在场的创业者总结道:“不要因为自己钱袋子不太鼓就止步了,你根本不需要那么多钱!”
大模型创业的三大系统性机会
许四清指出大模型创业有三大机会:大算力、大参数、提供通用能力的大模型;小算力、小参数提供垂类能力的专用模型;以及利用模型解决应用问题的浅表型应用。
他强调浅表型应用机会尤其多,中国产品经理应该投身其中:你不需要懂大模型,只要会用大模型就行,中国的产品经理和工程师要携起手来去卷全世界。这种机会对创始人特别大,但对我们投资人却很tough,因为特别难预见什么人能得手这批创业机会,就像在苹果的AppStore出现之后,你不知道谁会成为一个小红书和Shein。
在浅表层应用的具体方向上,许四清认为最有“钱途”的是营销和动漫这类直接围绕客户的核心业务和“钱袋子”的方向,其次是“法律”等提升效率的服务 ,大模型已经把很多公司的边界打破了,不容小觑。
“在大模型创业上,OpenAI出现在美国一点都不奇怪,因为它的创新机制很到位,我们客观上还是有差距,但是我们的人工智能学者和工程师在通路被探索出来后,非常有机会在垂类领域快速赶超。”许四清指出适合中国客观实际的创业路径。
“梅涛院士就属于这一类,他对技术和创业很有热情,讲起来就眉飞色舞,一下就把我们打动了。阿尔法公社是HiDream.ai的种子轮投资人,我们还联合了15位科大校友一起投他,想法就是创业者和投资人携起手来,共同创造。
创业者在选择投资人时一定要思考他是不是与你同频,认知上是否一致,因为早期投资是和创业者共同探索,他要承担很多风险,要有很强的认知能力和很多的资源,我们阿尔法公社愿意和大家一起探索这个事。”许四清接着补充。
梅涛院士也Echo了许四清:“创业注定是一个少数人的事情,创业者就是要把看似不可能的想法变成可能,这非常不容易。阿尔法公社不仅会在财务上支持你,而且也会在精神上支持你。我非常同意创始人要找和自己同频的投资人这个观点,在投资人中,像许师兄这样认知持续和我在同一个频道的,非常少;创始人融资确实需要钱,但更多也是有情怀的,更需要同频共振的投资人。”
很多人认为大语言模型都有千亿参数,视觉大模型是不是应该万亿参数打底?梅涛院士对这种误区进行了修正:“我们搞技术的人有一个共识,在你的垂直领域里,模型参数比别人大10倍、能力超越一个level而且模型能力是通用的,那就是大模型。但我们HiDream.ai不仅想做基础模型,还要做垂直的应用,这是我们的全栈性。不过,这并不代表我们要布局所有行业,我们想先重点关注游戏和电商两个行业。”
梅涛院士在去年年底从京东离职,在今年三月份创立了HiDream.ai,本次活动上,他阐明了自己在这个时间点创业的初衷:为什么在AI 1.0时代我没有出来创业?因为当时应用人工智能的能力还不极致,像人脸识别,一般是一个算法对应一个应用,追求的是准确度(人脸识别的4个9),不能规模化,天花板较低,也不是创业的真正形态。
AIGC时代则是不断扩展人类的创造力的边界,让我感觉到很大的机会,它能助力创意的产生,也能在工作流中帮助我们提升效率,而且提升幅度不是几倍,是10倍甚至100倍。
大模型为什么必须多模态?梅涛院士表示:大语言模型里的误区是,大家认为这是一个文字建模的语言模型,其实人类从交换信息到语言沟通,天然就是多模态的形式。
我们在交流时,不仅要说话,脑子里还要把话语(语音)转换成文字,还要做手势,以及眼神的交互,所以人与人交流的本身就是多模态的,现在基于文字的大语言模型做得好,只是因为文字的tokenization(分词)做得好,其他模态其实也非常重要。
所以在AIGC领域,我们很快就会从单一模态跨越到多模态时代,多模态不仅包括文字、语音,图片、视频、3D、甚至Sensor(传感器)都是一个模态。
HiDream.ai 想要做的事情是提高视觉模型的多模态能力,把图片、视频、3D的内容放在同一个框架里面去训练。
梅涛院士阐明现有的视觉模型遇到几个关键挑战:第一是怎么让模型把Prompt和世界的各种关键信息关联起来,更好地理解人们的意图。第二是细节,怎么精准地生成人脸、手指以及其他具有高度真实感的细节。第三是关系,在任何一张AIGC的图片里,要实现多个人之间拥抱、握手这一类动作,目前的生成结果大概率都会有问题。
为什么会有这些问题,因为现有的视觉模型的天花板还比较低,没有超过百亿参数的,大部分是十几亿到二十几亿的参数量。我们之所以敢于出来创业,是因为我们和大洋彼岸的对手其实还在同一水平线,只要我们跑得快,就很可能超过竞争对手。
下一步,我们将训练一个百亿参数的模型,并且提高模型与真实世界的交互能力。模型的参数量大了以后可能会涌现出智能,但它涌现出什么智能,现在还无法预测。
大语言模型可以全球各个地域做,因为有阿拉伯语等各种小语种,但是视觉模型必须做全球化的,因为一图胜千言。
“相比之前在大公司里每一个 milestone(里程碑)按季度计算,从3月成立公司,到4月初资源和团队完备,到现在6个星期,我们已经做了一个60亿参数规模的视觉模型,并且已经达到Midjourney V4版本的能力。
所以有想法和抱负的人一定要自己出来干,这样一切都是加速的,现在我演讲的速度只是我平时说话速度的1/2。”梅涛院士对模型训练进度的介绍透出HiDream.ai团队的极速战斗力。
谈及创业的初衷,梅涛院士表示:我们不仅要做基础的多模态模型,也要做很多应用上的创新。我认为AIGC的服务模式,无论是语言模型还是视觉模型,一种是API,一种是按照Token来收费,这都是比较标准化的。
现在很多设计师都用Midjourney来生成素材,但是因为可控性的问题,Midjourney并没有进入到真正的工作流程。而我们想做的是从这种浅层次的生成素材做到更深一点,做一个很长的工具链,满足他们真正的需求。
另外,我们想做的是切入整个价值链的环节,做产品设计和营销,这两个环节和创意生成是非常相关的,我们也想把产品做成现象级的。什么是现象级,就是你输入一个很长的文本(作为Prompt),就能生成一个长视频。
两位嘉宾的分享结束后,意犹未尽的创业者们立刻就提出了多个问题。
一位AI领域的创业者向梅涛院士提问:我们的创业方向是瞄准了企业服务的一个垂类 ,并跟AI结合,我们的思路是先有了应用场景,找准客户,再去想怎么利用AI去提效,您作为一个大模型领域的创业者,怎么去找商业应用的场景?
梅涛院士表示:在AI 1.0时代,首先找到业务,再去反推需要什么技术,我觉得这个思路是完全正确的。但在AIGC的新时代,我认为它是一场新的技术革命,它会颠覆所有行业,带来很多倍的效率提升。在这个时代里,就会有技术驱动创新的创业空间。
对我来说,我们会两条腿走路,一方面我们会把很大精力放在大模型的训练和微调上;但另一方面也会做应用,因为大模型要产生价值,还是要落地到应用层面。
一位创业者以Jasper举例,在ChatGPT出现之前,它的产品能力受到认可,增长也挺好,但是ChatGPT一出来就把它卷了,那么面临大模型公司的竞争,做应用的公司应该怎么建立竞争壁垒?
许四清首先回答了这个问题:这一轮大模型大力出奇迹,确实把很多创业公司给卷到了,但是在垂类还有机会,假如你在某一垂类有足够深的积累,就可以借着大模型去卷别人,你可以利用你的数据进行微调和RLHF(对齐),这样你下的功夫越多,微调后的模型在这个垂类里的表现就越好。
这样做的杠杆极高,创业者要敢于去到离AIGC最近的地方,那些看起来越“安全”、越不会被“替代”的领域,往往也是不需要创新的,也就更不安全。
梅涛院士对许四清的观点进行了补充:AI创业公司两个核心的壁垒,一个是算法,也就是有没有基础大模型,这个模型够不够强,有没有做这个基础模型的高密度人才梯队;另一个是能不能构建数据飞轮。要有壁垒,一定要构建算法和数据的双轮驱动,因为它们是相辅相成的,好的数据能让模型越来越好。
数据壁垒至关重要:如果一个行业的数据很容易拿到,那么创业公司进入就必死无疑,分分钟就被技术强的公司颠覆了。如果这个行业的数据外界很难拿到,例如法律的文书或游戏的设计草图,那么创业公司具有闭环数据优势,即使模型能力一开始比不过别人,后续在数据的驱动下,也会越来越好。
创业者和技术极客们的问题一个接一个,许四清和梅涛院士也一一详细回答,直到天色向晚,活动才结束,而还有创业者找到许四清继续深聊。
限于篇幅,我们只展示了本次活动分享和问答环节的部分较为精彩的内容,还有不少硬核技术内容和只适合线下交流的深度话题,我们没有完整披露。AFC系列活动,我们将持续举办,下一期的活动已在筹备中。
本文由阿尔法公社原创。
关于阿尔法公社