3月23日,阿里云魔搭社区公布“ModelScope—Sora开源计划”,将助力中国类Sora模型的探索和创新。该计划将为类Sora模型开发提供一站式工具链,包括数据处理工具、多模态数据集、类Sora基础模型、训练推理工具等。目前,魔搭发布了业界首个开源的多模态数据处理系统Data—Juicer,包含100多种高效算子,可大幅提升视频数据处理效率和质量。
阿里通义实验室算法专家李雅亮表示,数据决定了机器学习任务的天花板,只有投喂的数据质量高、颗粒度细、数量多,模型训练才能走出“垃圾进,垃圾出”的困境。不过,类Sora模型的数据处理挑战极大。主流大数据框架并非为多模态数据设计,而视频处理难度较图文又大幅攀升,现有工具难以应对。因此,“ModelScope—Sora开源计划”首先上架了由阿里通义实验室研发的多模态数据处理系统Data—Juicer,它可对庞杂的多模态数据去粗取精,“榨出”更高质量、更丰富、更易“消化”的数据。李雅亮介绍,魔搭社区还推出了基于Data—Juicer的沙盒实验室。研发人员可以先在迷你数据集和模型上快速迭代,找到最合适的配方。
接下来,魔搭社区还将举办“ModelScope—Sora挑战赛”,鼓励更多开发者打造并开源自己的类Sora模型,共同加速中国多模态大模型的发展。同时,魔搭将助力构建开放的中文高质量多模态数据集。作为国内规模最大、最活跃的AI开源模型社区,阿里云魔搭目前已汇聚3000多款优质模型及上千个数据集,为超过400万开发者提供模型及免费算力服务。(经济日报记者 李治国)