又一上市公司定增募资投建AI相关项目。
6月21日晚,海天瑞声(688787)披露定增预案,宣布拟拟定增募资不超7.9亿元用于AI大模型训练数据集建设等项目。
海天瑞声称,鉴于大模型训练数据通常具备数据规模大、数据质量高、数据类型丰富等特点,该项目拟建设AI大模型训练数据集,即生产用于通用型、及各种垂直领域大模型训练的海量、高品质数据集。
公告显示,该项目拟购置办公楼作为建设大模型训练数据研发生产基地,并购置数据采集、数据处理、数据存储和办公等软硬件设备,利用海量、高质量、多样化的公共数据资源、社会数据资源和稀缺性数据源,通过数据集设计、数据采集/获取、清洗/分类/标准化、标注/优化、评测等全流程的任务执行进行高质量大模型训练数据集建设。
建成后,该项目将提供可供大模型训练和评测的不少于10个品类的专业数据集,显著提升行业内面向大模型训练数据集的类别和质量,协助实现公共数据、社会数据等各类高价值数据资源汇聚,实现基于大模型通用能力和垂直领域数据的训练学习。
海天瑞声是全球AI训练数据服务企业,持续推动智能语音、计算机视觉、自然语言理解等领域的创新与变革。今年一季度,该公司营收2882万元,同比下滑39.81%,亏损1362万元,同比下滑244%。
在此次定增预案中,海天瑞声表示,该项目建设符合公司“夯实传统业务,探索新型业务”的战略目标,公司在保障人工智能基础数据业务稳健发展的同时,不断探索寻求新的业绩增长点,公司将基于过往的数据服务经验,结合行业前沿需求,积极拓展大模型训练数据服务领域,力争将大模型训练数据等创新业务打造成为具有潜在高增长价值的新型业务板块。
据介绍,自2005年以来,海天瑞声致力于为AI深度学习提供算法模型开发训练所需的专业数据集,现已积累较为完备的综合性、一体化数据处理平台及工具体系,覆盖智能语音、计算机视觉、自然语言等全业态领域,可服务于市面上绝大多数数据处理需求。截至2022年12月31日,该公司拥有智能语音数据集产品储备927个、计算机视觉数据集产品储备125个、自然语言数据集产品储备282个,已向下游客户提供了累计约6000次/个定制或标准化训练数据集。
海天瑞声最新披露的调研纪要显示,从目前一季度情况来看,海天瑞声的大模型订单主要集中在强化学习阶段的数据处理需求,例如对prompt的内容回复续写、机器生成内容的评分等等。
值得一提的是,作为从事AI数据训练的公司,在今年以来的AI大模型发展浪潮下,海天瑞声股价不断上涨,年内至今已累计上涨171%。6月21日,A股多只AI概念股回调,海天瑞声股价收盘下跌8.72%,股价115元/股,总市值69.37亿元。