博特智能在路上……
作者:李夜
编辑:马继伟
灰犀牛ChatGPT助推AI进入2.0时代。
颠覆式创新之下,有人欢喜,有人忧。
有的企业,被瞬间抹平辛苦积累的技术和产品的优势。而有的企业则利用大模型更上一层楼,开拓新赛道。
本文故事的主角博特智能,属于后者。
不久前,黑智与博特智能创始人兼CEO戴亦斌进行了深度沟通,发掘出这位连续创业者面对技术浪潮的嗅觉与应对方法。ChatGPT爆火之前,博特智能利用开源技术架构打造出AIGC产品,在此过程中积累认知、经验与资源,并重构了自己的产品结构,为原有业务打开了新局面。
不过更可贵的,是他一次次押注背后的决策逻辑,是他不断地做势能加法、不断破局。
01
逆势创业
2019年末,移动互联网的风口过去了。曾经的当红炸子鸡AI,备受一级市场嫌弃,要等到三年之后大模型出来之后,才能二次翻红。在无风可依的“档口”,戴亦斌这位连续创业者,选择AI创业。
戴亦斌,2010年入场就一直没离场,怎会不知道AI已成昨日黄花。当时他就看好AI和区块链两个方向。与区块链相比,AI应用场景更多。“当时我最看好的就是AI,尤其是基于AI的垂直行业应用,有大量的机会。AI四小龙深耕人脸识别、安防,并无开拓太多领域。”对于他来说,AI还处于早期阶段,唱衰AI为时尚早。
但为了对冲AI市场的信心颓势,他将博特智能卖点定为智能信息过滤(AI+信息过滤),毕竟他还要融资。智能信息过滤,AI的垂直应用领域之一,需求多,机会也多。更重要的是从中科院开始,他一直在做。
2020年,博特智能的主战场设在UGC内容审核市场。UGC内容审核有三大特点:高门槛行业,入行玩家需要长时间的数据积累、技术沉淀;“氪金”行业,算力硬件、研发投入等都需要钱,动辄上千万元;服务外包,鉴于以上两个特点,于需求方而言,内容审核属于服务外包而非主业,没必要投入资源专门来做。即便做,也难以赚钱,难以规模化。
从势上来看,2020年的UGC市场达到顶峰。2015年前后短视频、直播兴起,UGC行业快速上量,2020年达到顶峰。2020年之后,UGC市场进入到存量博弈阶段,中小平台特别是直播平台在萎缩,流量越来越向头部集中。垃圾内容泛滥是UGC内容产业最大痛点。需要投入大量的人力、物力进行内容审核。
该行业一直寻求引入先进技术比如AI技术帮助审核,并借此改变成本结构。所以AI+人工成为当时也是现阶段主流的审核模式。但投资人并不认可该模式。有投资人曾问戴亦斌,AI能够100%解决内容审核问题吗?他得到的答案是不能。“那就是没有价值的,”他告诉戴亦斌。投资人的担心不无道理。解决部分问题的AI导致了大量审核人员的存在。截至2022年年底,网信办的数据显示,国内从事人工审核的人超过100万。头部UGC平台的审核人员高达数万人。
戴亦斌也苦恼于此。他发现即便输入大量数据,图像识别模型、图像分类模型等AI模型已经没有太大提升空间了。“传统的深度学习已经走到头了。”2020年的他虽无奈,但仍期待着随着AI技术的进步,卸下内容审核的“人力包袱”。2022年,他等到了大模型。当然,这是后话了。
围绕UGC内容审核市场,戴亦斌在武汉组建了约20人的核心团队。核心团队主要来自中科院和之前的创业团队。其中团队技术合伙人及首席科学家为中科院资深研究员、博导,在高速数据流捕获与处理、网络信息识别与过滤、数据挖掘与信息检索等方面积累了大量的研究成果和特色技术。博特智能发布了针对UGC内容审核市场的第一版产品,中标了中国移动的合同,进入到移动云的市场。它还与中科院组建联合实验室,并赶在封城前完成了东湖天使基金数千万元的天使轮融资。
2020年,博特智能的开局不算差。
(博特智能团队,拍摄于2023年夏)
02
抓住风
逆势创业的戴亦斌,等来了风。
2021年,PGC的微风刮起来了。移动互联网时期,微信公众号、微博号、头条号、百家号、支付宝、小红书等涌起,行业客户、专业机构比如金融机构、上市公司、律所、党政机关、新闻媒体等打造了跨平台的内容矩阵,需要发布的内容增多。很多错误出现了。内容安全、合规随之提上日程。
戴亦斌判断PGC是继UGC之后的新机会、新的爆发点;判断未来5-8年,PGC内容审核将处于快速增长期。
所以2021年,成立刚一年的博特智能,开始布局PGC的产品。挑战不小。因为在内容审核方面,PGC与UGC并不完全相同。比如不尽相同的算法、需要重新积累PGC方面的数据等。但也有相同的。比如PGC和UGC均需用到的核心算法、底层技术,比如文本分类、字符串匹配、分类算法等。
鉴于PGC市场,博特智能从两个方面着手,开辟新战场。
第一,开拓渠道。
博特智能通过包括权威媒体、电信运营商在内的渠道覆盖客户群体。投资人并不认可通过渠道获客的方式,认为这相当于把自己的客户攥在了渠道手里。而戴亦斌的判断是因为PGC产品的客单价不高、客户分散,渠道是比直销更加适合的方式。“你不可能派个销售一家家去谈,从成本上看并不现实。”戴亦斌称,其与渠道较早地建立起彼此互信的合作关系,且日常精心维护,所以渠道关系比较稳固,具有一定的先发优势。“不是说你放了一个产品进来,就能做起来。做不起来的。”
第二,做好产品。
首先,博特智能定制产品满足用户需求。该产品需求恰来自电信运营商渠道的反馈。电信运营商渠道能够覆盖到区县一级的党政客户,这部分客户对于内容审核类产品有强烈需求,而定制化工具为其量身打造,简单好用,上手快。
其次,博特智能双管齐下——自建数据团队与合作伙伴,弥补数据短板。戴亦斌认为它是打造PGC产品最难的部分。
博特智能自建数据团队专门收集数据。该团队每天收集内容风险的舆情数据、最新发布的政策、领导人讲话等数据,并将其中的高频词、重点词等抽取出来,加入到数据库中,用于训练数据或者作为词库的一部分。比如一带一路的提法,经历过从“战略”到“倡议”的变化。二十大后,有些说法与十九大相比,有了更新。这些变化与更新,都将作为重点词,被分析、提炼出来。博特智能的数据团队,每天都会重点收集舆情事件、重大事件,突发事件等,甚至将这些数据做成一个名为“风控日历”的产品,推送给订阅客户。
此外,博特智能通过与人民日报、新华社等建立合作关系,弥补数据劣势。“通过这些手段,积累起数据,建立起数据优势,并最终形成数据壁垒。”
在这一年里,博特智能中标平安集团、亚马逊中国的内容审核项目,并完成了深创投领投的最新一轮融资。凭借着PGC业务,博特智能在接下来的两年开启了业绩快速增长期。
从结果来看,戴亦斌赌对了。
“作为创业者,你一定要做决定。最坏的情况是你不做决定,拖,很多机会就没有了。有时候,做一个错误的决定比不做决定要好一些。至少错误的决定,可以告诉你此路不通。对创业来说,可以失败很多次,但成功一次就可以了。再加上投资人投钱给我们,让我们有了更多的试错机会。”而戴亦斌敢于判断的原因是,他想清楚了一件事情从何而来,未来将如何发展演变,对于博特智能有什么好处。“想清楚了就可以做了。”
2022年,博特智能再做产品升级决策——将PGC和UGC两产品进行融合,上线智能信息处理2.0产品。“我们把所有的东西集成在一起,除了将能力集成,还集成了用户体系、商务、营收、数据等。客户无论从哪个渠道接进来,都可以使用所有的能力,所以我们把它叫做一站式的内容审核、巡查平台。”
2020-2022年,博特智能每年上线一款产品。新品推出的背后离不开博特智能的团队。这也是戴亦斌敢一年年押注新赛道、推出新产品的底气所在。
他们经验丰富。这要从博特智能的团队背景说起。博特智能的研究团队来自于中科院,产品与销售来自之前的创业团队,2B经验丰富、擅长产品的快速迭代与开发。
他们贴身服务客户。了解到很多PGC客户没有技术能力,需要的是一个能够直接使用的、现成的产品,而非一个API接口。所以博特智能不但提供API接口,还提供客户端、APP、网站、云端、私有化部署等多样的产品形态。
他们“能力强”且“勤奋”,核心开发团队既有出身北大、哥伦比亚、中科院等名校的博士硕士,也有来自普通学校的本科毕业生,他们都有一个共同的特点,就是足够勤奋、努力。“创业,没什么独门秘籍。就是你比别人努力、比别人刻苦。你比别人做得快、做得好,不就靠这个吗?”
03
重仓AIGC
AIGC是PGC之后的新阶段。
AIGC跟APP曾经的爆发是同等量级的。得益于安卓和iOS的发展,APP在智能手机出现后,开始大规模爆发。据戴亦斌称,APP市场顶峰时期,存量APP达到400多万个。他认为,大模型出现以后,未来AIGC应用将遍布各行各业。他预测,AIGC应用2024年将达到数万个,2025年将攀升至几十万乃至上百万的规模。而这些开发者们都需要大模型和AIGC的安全服务,比如价值观对齐(微调),比如自动评测。
“未来,这些大的行业客户比如金融客户,可能每家都需要建立自己的大模型评估标准,搭建评测平台,来评估自己的大模型及其相关应用,以评估服务能力、服务质量以及安全性等。通过评估后,它才会放心地提供给客户使用。所以他们以后要么购买我们的服务,要么需要我们为其部署一套评测系统。”
说及AIGC的安全风险,既包括国家社会安全的方面,比如意识形态和价值观偏离的风险、虚假信息和欺诈的风险,也包括数据和网络安全的方面,比如非法数据采集和数据污染的风险、安全漏洞的风险等,AIGC有其特殊性的安全需求和与后两者相比,更大的安全范围。AIGC的意识形态和价值观对齐,既包括UGC侧重的黄赌毒暴恐等违规信息,也包括PGC侧重的意识形态、价值观对齐以及专业信息的审核与纠错。
博特智能涉足AIGC领域是在2021-2022年,ChatGPT横空出世之前。当时,博特智能主线任务还是打造融合PGC和UGC的产品。客户提出自动写公文的需求。“想清楚”了之后,博特智能研究了很多开源框架,综合评比后,选择了利用开源技术架构,打造一个能够生成较长文本的AI写作产品。做长文本生成,需要克服许多困难,比如上下段落之间的逻辑关系等。博特团队咬牙顶了上去,并最终打造出“博特妙笔”,于今年3月上线。“目前,它是市面上公文生成效果最好的产品。包括新华社这些大客户都在用。”
戴亦斌很庆幸,一直坚持,没有放弃。要不然,就无法获得一手大模型打造的手感与经验,更无法掌握与大模型训练有关的技术、推理、性能优化的方法等,更无从谈起助力打造大模型、AIGC产品的价值观微调训练和自动评测了。也正因为提前做过一遍,戴亦斌才对大模型祛魅,并做出有“大模型就像一层窗户纸”的判断。他认为训练大模型的方法是公开、可见的。理论上,只要投入相应的资源并辅助以专业的人员,都是可以做出来的。
ChatGPT爆火之后,博特智能开始通过大模型重塑产品体系与服务框架。博特智能的智能信息处理产品UGC&PGC的底层模型全面升级到大模型,在原来的基础上重新构建全新的意识形态数据集和意识形态大模型,并新增与大模型&AIGC有关的评测服务(包含服务能力评测、服务质量评测等)以及大模型价值观对齐(微调训练),不仅帮助大模型&AIGC客户发现问题,还能解决问题。
(大模型出现前博特智能服务架构)
(大模型出现后博特智能的服务架构)
博特智能的服务架构分为四层:基础平台、数据标签、模型算法、产品应用。详见上图。从博特智能两个服务架构的对比上,可以清楚显现大模型对于服务架构的重构与转变。其中,博特智能内置了一个能力中台,整合了各种底层能力比如文本分类、图像、视频、音频等。“通过能力中台将各种能力进行整合,如果上层应用需要调用其中某两个能力,那么通过中台可将它们组合在一起,提供给该应用。”博特还将中台放在产品里,比如内置到前端应用产品里。这样的话,业务部门就可以定义产品了。“我们有APP,APP所用到的最底层的能力模型与B端的客户所用到的是同一个能力模式,都出自能力中台。”
构建这套服务框架的难点是构建本身,也即将它做出来,做出能够让客户接受、满足客户要求的产品。这中间有巨大的工作量——需要不断地细化、优化数据质量,调试算法。“做大模型那么难吗?难!百分之七八十的时间在准备训练数据,提升训练数据的质量。其中,工作量巨大。剩下的时间,交给A100去跑,跑完以后再分析结果。就这样,不停地迭代。”
04
另外的功课
“商业模式就是一句话:你是怎么赚钱的。”戴亦斌说。“没那么复杂。”
博特智能核心的商业逻辑是根据客户的使用量和调用次数来收费。“卖检测量;审核怎么赚钱,用户在我们这儿审核一张图片,就收一张图片的钱。审核1万字,就收几块钱。生成1万字,就收几块钱;这就是我们的商业模式。”
这几年,在打造产品的同时,戴亦斌也正基于客群、产品构建最好的商业模式。何为最好的商业模式?根据其观察与体会,戴亦斌认为好的商业模式、最好的商业模式进行他的定义。他认为好的商业模式是以什么方式持续稳定地赚钱。最好的商业模式是在好的商业模式的基础上,还能够赚取高额利润。“设计一套商业模式,主要的难点是稳定、持续,并赚取高利润。这个是比较难的。你把这几点都解决了,投资人肯定会追着你投钱。”
目前,博特智能理论上解决了稳定、持续这两个问题。但尚需验证时间的验证。关键指标是 年营收破亿。成立以来,博特智能的业绩持续增长。采访中,戴亦斌没有透露博特智能的营收数据,但从其合同收入上可以一窥。2020年-2023年的合同收入分别是百万、千万、千万以及亿级(预估)。若 年营收破亿,证明商业模式是靠谱的。接下来,若在营收、毛利、净利等关键指标上实现预期目标,便是“好的商业模式”,便可以冲击IPO了。现阶段,博特智能的研发成本高(尤其在前期),毛利也高(高达80%+)。从本质上来看,作为信息服务业,博特智能的产品边际成本会趋近于零。随着规模扩大,总成本将随着不断扩大的规模而降低。
戴亦斌认为创业公司营收过亿是个门槛。过这个门槛,他做好了产品准备、销售准备。“如果你产品不行,你做不上去;如果你销售不行,你也做不上去。因为做 2B生意,销售也挺重要的。某种程度上看,组建销售团队比组建技术团队更难一些。”
产品功课,博特智能做了三年。销售功课,博特智能还正在做。戴亦斌在上一家公司创业时期,带了4年的销售团队。曾负责组建、管理市场销售团队,四年时间实现数亿营收。需要指出的是上一家公司和如今的博特智能面临的商业环境、客群不同。在做营收之前,上一家做了三年的免费服务积累了很多潜在客户。一旦开始收费,其营收增长曲线的斜率很高,营收从过千万元,四年便增至了数亿元。博特智能成立之初提供的是有偿服务,它的增长曲线是一条相对比较平稳的曲线。在新的情势下,博特智能如何破题?或许可以从戴亦斌之前成功的路经上找到答案。
(1)组建销售铁军
打造一支一个强战力的销售团队。戴亦斌认为,打造这支团队的诀窍在于做细、做扎实每一项工作。其中包括一轮一轮的业务培训、业绩考核、优胜劣汰。
“我们当时有一个模型。2B销售,比如第一年销售人均做到50-70万,就可以认为这个销售合格了。第二年150-200万。稳定下来以后,他可能做到每年300-400万。这其中差异取决于产品客单价。培养一个成熟销售可能需要三年时间。他就能够稳定在300万左右的销售额。”戴亦斌称如果有一支人均销售额稳定在200-300万元的销售队伍。就能够把事情做起来。而他在之前打造出这样的团队。现在他正在博特智能打造这样的团队。
(2)客群覆盖
目前,博特智能有几千家客户。从行业来看,它们可以分为三类:政企客户(含党政机关、事业单位)、互联网客户、行业客户(含金融、电力、新闻出版)。
戴亦斌曾经特别强调的一点是,不管客户能不能签单或者是不是马上就能签单,销售人员一定要找到他,并将产品向他介绍清楚。“他当下不买,后面肯定会买的。”现在,博特智能做大模型和AIGC安全服务,他也强调这一点,认为只有做好覆盖,后面才会有持续产出。“就是这样,做好覆盖,后面都会开花结果。为什么后面增长这么快,就是你前期覆盖到了。”
05
结语:在路上
博特智能正在规模化增长的路上。
跨过1亿营收,只是博特智能规模化增长的起点。
实现1亿营收,戴亦斌考虑的是产品和销售。下个目标是2-3亿营收。实现2-3亿营收,取决于管理能力,也即组织能力。“因为做到一个亿的收入,说明我们的产品和销售已经成熟了。要想再做大,就要看我们的组织能力能否跟上。这是规模化增长的关键。”
博特智能正在专业化、深度化的路上。
产品方面,目前博特智能有两条主要的核心产品线和两条新扩展的产品线,内容安全方面是基于大模型的智能内容审核巡查产品线,大模型&AIGC安全方面是安全评测平台和价值观加固(微调)产品线,新扩展的产品线包括AIGC内容生成方面的博特妙笔AI电子公文协作管理平台、数据安全方面的跨境数据安全屋。
在内容安全方面,博特智能将深入行业,成为行业专家。博特智能将深度到不同的行业,比如金融、出版、公文、法律、科技论文等,从原来相对通用的基于规则、词库和语义理解的审核平台升级成一个基于大模型、嵌入行业标准规则知识、提供更贴合客户使用场景的解决方案。“我们不仅检测内容是否合规,还检测内容是否符合相关的国家标准、行业规定,比如格式、用词、一致性、上下文关联和逻辑性等,以及避免利益输送等问题。这是我们未来几年的发展方向。”
在大模型和AIGC安全方面,博特智能也将突出强专家属性,与权威媒体和主管部门联合发布意识形态数据集和专门的大模型监测平台,联合创建大模型微调训练平台,提供价值观对齐服务。随着大模型的发展,博特智能将针对医疗、教育、金融等不同行业的需求,提供强行业属性、强专家属性的大模型评测平台。博特智能正与国内主流的大模型厂商接洽并建立合作关系,“争取成为各家大模型生态的一部分。”
总的来说,博特智能正在稳步推进其规模化增长的战略。未来,期待博特智能在AI行业中发挥更大的作用,推动行业的发展和创新。(记者杨雪涵对本文亦有贡献。)
推荐阅读
创新工场砸数千万元力挺,FOCO正让好莱坞影视工业级的数字人走进千家万户|互联网3.0产业系列访谈
* 课程咨询 | 培训业务 | 公关传播 | 转载开白请在公众号后台回复 【合作 】
加入创业黑马科技交流群
↓↓↓
报名黑马AIGC产业大课
↓↓↓
分享、赞和在看,完成三连击,把好的内容传递给更多需要的人。
更多精彩内容,尽在i黑马视频号
↓↓↓
关注黑马传播矩阵,get更多精彩内容
↓↓↓