中国财富网讯(贾垚)11月19日,行业大模型、具身智能、算力、芯片、数据合成等10项首发成果在2024年世界互联网大会乌镇峰会登台路演。其中蚂蚁数科申报的首发成果AI数据合成与生产技术平台(AI Generated Data,以下简称“AIGD”),因其专注于“数据合成”,而获得了广泛关注。
当下,AI发展正面临着高质量数据短缺的问题。近年来,伴随着大模型技术的快速发展,机器学习也正从“以模型为中心”转向“以数据为中心”,高质量数据可以更好地模拟客观世界,提升模型的准确性和稳定性。
业内人士普遍认为,“高质量数据”是AI大模型深入到产业的重要基础,没有好的数据做支撑,一切AI应用都是“空中楼阁”。Epoch AI Research研究团队预测,“到 2026年,现存的用于AI模型训练的高质量语言数据将耗尽。”
蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲现场表示,“未来的AI应用需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气与极端路况数据,具身智能训练所需要的复杂场景数据。在此背景下,数据合成将成为关键。”