【头部财经】人工智能公司Cohere的首席执行官Aiden Gomez透露,由于Reddit、Twitter等公司收取的数据采集费用过高,许多AI公司,包括微软、OpenAI和Cohere在内,已开始使用合成数据来训练他们的AI模型。Gomez表示合成数据在许多训练场景中具有应用潜力,尽管目前还没有被广泛推广使用。
合成数据是通过计算机技术生成的数据,而不是从真实事件中获得的。然而,合成数据具备可用性,能够在数学和统计学上反映原始数据的特征,因此可以作为替代原始数据进行训练、测试和验证大型模型的工具。
举个例子,假设一家企业想要在高等数学领域训练一个模型,他们可以创建两个人工智能模型来扮演老师和学生的角色,并让它们讨论三角学等相关话题。人工智能主要负责观察,如果发现错误,可以进行纠正。
简而言之,采用合成数据可以为AI公司带来许多好处,包括避免高昂的数据采集成本、缩短训练周期并扩大训练范围。然而,合成数据的广泛应用仍然需要进一步的研究和验证,以确保其在真实世界中的有效性和适用性。
随着人工智能技术的不断发展,使用合成数据来训练模型是一个具有潜力和吸引力的方向。未来,我们可以期待更多AI公司和研究机构在合成数据领域进行深入研究,为人工智能的发展和应用开辟新的可能性。