【太平洋科技资讯】根所外媒报道,OpenAI等AI公司在获取高质量训练数据方面遇到了难题,其中OpenAI由于急需大量的训练数据,并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模型GPT-4,OpenAI转录了超过100万小时的YouTube视频。
目前不少AI公司在获取高质量训练数据方面遭遇了难题。根据相关报道称,OpenAI在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物的可行性。此外,OpenAI还使用了来自GitHub的计算机代码、国际象棋走棋数据库等。尽管OpenAI知道这种做法在法律上存在问题,但公司认为这是合理使用。OpenAI在一封电子邮件中告诉The Verge,该公司为每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。并称公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。