当前位置：首页|资讯|OpenAI|GPT-4|Whisper

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

作者：太平洋电脑网发布时间：2024-04-10

OpenAI GPT-4 Whisper

【太平洋科技资讯】根所外媒报道，OpenAI等AI公司在获取高质量训练数据方面遇到了难题，其中OpenAI由于急需大量的训练数据，并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模型GPT-4，OpenAI转录了超过100万小时的YouTube视频。

目前不少AI公司在获取高质量训练数据方面遭遇了难题。根据相关报道称，OpenAI在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物的可行性。此外，OpenAI还使用了来自GitHub的计算机代码、国际象棋走棋数据库等。尽管OpenAI知道这种做法在法律上存在问题，但公司认为这是合理使用。OpenAI在一封电子邮件中告诉The Verge，该公司为每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。并称公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

推荐体验

相关资讯

OpenAI采集超百万小时YouTube数据，为GPT-4提供训练素材

近日，《华尔街日报》和《纽约时报》相继报道了AI公司在收集高质量训练数据方面所面临的挑战及应对策略。其中，《纽约时报》深入探讨了AI公司如何处理数据收集的难题，尤其关注了涉及AI版权法的模糊灰色地带。

OpenAI GPT-4 华尔街

网界 2024-04-08

报告称 OpenAI 采集了超一百万小时 YouTube 视频来训练 GPT-4

本周早些时候，华尔街日报报道称AI公司在收集高质量训练数据方面遇到了困难。今天，纽约时报详细介绍了AI公司处理此问题的一些方法，其中涉及到属于AI版权法模糊灰色区域的内容。报道称，OpenAI迫切需要训练数据，并开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。

OpenAI GPT-4 Whisper 华尔街

动点科技 2024-04-07

基于高质量训练数据，GPT-4 Turbo更出色更强大

11月7日消息，OpenAI在首届开发者大会上正式推出了GPT-4 Turbo。与GPT-4相比，GPT-4 Turbo主要有6方面的提升：1、扩展下文对话长度：GPT4最大只能支持8k的上下文长度（约等于6000个单词），而GPT-4 Turbo具有128k上下文长度，增幅达到了16倍。2、加强模型控制：GPT-4 Turbo采用全新模型控制技术，使开发者可以更精细地调整模型输出，提升用户体验。3、增加多模态API：集成多模态能力，能够接受并处理图像输入、可将文本转换为语音等；文生图模型DALL·E

GPT-4 DALL·E OpenAI

景联文数据标注 2024-03-08

OpenAI曾转录100万小时视频数据，训练GPT-4

4月7日，纽约时报在官网发布了一篇名为《科技巨头如何挖空心思，为AI收集数据》的技术文章。纽约时报表示，OpenAI曾在2021年几乎消耗尽了互联网有用的文本数据源。为了缓解训练数据短缺的难题，便开

视角先锋队 2024-04-09

景联文科技高质量大模型训练数据汇总！

3月25日，2024年中国发展高层论坛年会上，国家数据局局长刘烈宏在“释放数据要素价值，助力可持续发展”的演讲中表示，中国10亿参数规模以上的大模型数量已超100个。当前，国内AI大模型发展仍面临诸多困境。其中，较为突出的就是高质量数据集的匮乏，这极大阻碍了大模型效果提升。特别是专业的行业应用数据集，其获取难度更大，这导致大模型可使用的数据量受到限制，进而对大模型效果形成阻碍。景联文科技是大语言模型数据供应商，致力于为不同阶段的模型算法匹配高质量数据资源。世界知识类书籍、期刊、论文及高价值社区文本数

国内AI大模型大语言模型

景联文数据标注 2024-04-09

近期资讯

上海衡山取得螺内酯片原料加热装置专利，提升装置加热效果

金融界2024年12月28日消息，国家知识产权局信息显示，上海衡山药业有限公司取得一项名为“种螺内酯片原料加热装置”的专利，授权公告号CN222211083U，申请日期为2024年1月。

金融界 2024-12-28

联柏科技取得高效嘧啶呋喃酮湿品螺带干燥装置专利，有利于提高对嘧啶呋喃酮湿品的干燥效果

金融界2024年12月28日消息，国家知识产权局信息显示，江西联柏科技有限公司取得一项名为“一种高效的嘧啶呋喃酮湿品螺带干燥装置”的专利，授权公告号CN222211070U，申请日期为2024年5月。

金融界 2024-12-28

深圳市洁威洗衣有限公司取得一体式烘干设备专利，提高烘干效率

金融界2024年12月28日消息，国家知识产权局信息显示，深圳市洁威洗衣有限公司取得一项名为“一种一体式烘干设备”的专利，授权公告号CN222211088U，申请日期为2024年3月。

金融界 2024-12-28

东晟智能取得用于脱硝剂生产的干燥装置专利，使脱硝剂干燥均匀

金融界2024年12月28日消息，国家知识产权局信息显示，广东东晟智能科技有限公司取得一项名为“一种用于脱硝剂生产的干燥装置”的专利，授权公告号CN222211080U，申请日期为2024年7月。

金融界 2024-12-28

唐山市丰南区金翔化纤取得真空转鼓干燥设备专利，提高了滚筒整体的干燥速度

金融界2024年12月28日消息，国家知识产权局信息显示，唐山市丰南区金翔化纤有限公司取得一项名为“一种真空转鼓干燥设备”的专利，授权公告号CN222211050U，申请日期为2024年5月。

金融界 2024-12-28

乐山新天源取得石英坩埚烘干装置专利，使整体烘干效果更好

金融界2024年12月28日消息，国家知识产权局信息显示，乐山新天源太阳能科技有限公司取得一项名为“一种石英坩埚烘干装置”的专利，授权公告号CN222211081U，申请日期为2023年12月。

金融界 2024-12-28

溧阳艺佳超微粉体取得纳米碳酸钙粉干燥装置专利，便于操作人员收集纳米碳酸钙粉

金融界2024年12月28日消息，国家知识产权局信息显示，溧阳艺佳超微粉体科技有限公司取得一项名为“一种纳米碳酸钙粉的干燥装置”的专利，授权公告号CN222211060U，申请日期为2024年2月。

金融界 2024-12-28

河北开创取得一种PVC管材生产中的烘干装置专利，确保PVC管材能均匀受热

金融界2024年12月28日消息，国家知识产权局信息显示，河北开创复合管道制品有限公司取得一项名为“一种PVC管材生产中的烘干装置”的专利，授权公告号CN222211095U，申请日期为2024年4月。

金融界 2024-12-28

洪泽大洋盐化取得用于工业盐制备的盘式干燥机专利，提高了烘干效果

金融界2024年12月28日消息，国家知识产权局信息显示，洪泽大洋盐化有限公司取得一项名为“一种用于工业盐制备的盘式干燥机”的专利，授权公告号CN222211082U，申请日期为2023年12月。

金融界 2024-12-28

连云港市亚诺化工设备有限公司取得便于拆卸的空心桨叶干燥机专利，提高了该设备的拆卸性

金融界2024年12月28日消息，国家知识产权局信息显示，连云港市亚诺化工设备有限公司取得一项名为“便于拆卸的空心桨叶干燥机”的专利，授权公告号CN222211077U，申请日期为2024年5月。

金融界 2024-12-28

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1