当前位置：首页|资讯|Hugging Face

收录 250 亿 Token，Hugging Face开源“世界最大”AI 合成数据集

作者：IT之家发布时间：2024-02-23

收录 250 亿 Token，Hugging Face开源“世界最大”AI 合成数据集

IT之家 2 月 23 日消息，Hugging Face 近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。

IT之家注意到，该数据集内容均由 Mixtral 7b 模型汇总生成，其中收录 3000 万以上文本文件，包含大量教科书、博客文章、故事小说、WikiHow 教程等内容，共计 250 亿个 Token。

据悉，Cosmopedia 数据集除了收录上述文本文件外，还为每条文件提供了标注信息，其中包含“提示”、“合成内容”、“初始数据来源”、“标记长度”、“类型”和“目标受众”等。同时团队也提供较小的子数据集 Cosmopedia-100k，供用户轻松管理和使用。

推荐体验

相关资讯

碾压LLaMA，「猎鹰」彻底开源！400亿参数，万亿token训练，霸榜Hugging Face

大模型时代，什么最重要？ LeCun曾经给出的答案是：开源。当Meta的LLaMA的代码在GitHub上被泄露时，全球的开发者们都可以访问这个第一个达到GPT水平的LLM。接下来，各种各样的LLM

LLaMA Hugging Face GitHub 编程

新智元 2023-06-05

合成数据：前世今生

在NLP领域，合成数据可以通过使用生成式模型基于现有数据生成新句子来创建；如当现实世界的数据有限或不平衡时，可以使用合成数据来训练模型进行文本分类。模拟可以通过游戏引擎等方法创建，如最近火爆的Sora文生视频…

阿里研究院 2024-05-13

Hugging Face 谈钱不伤开源

ToB记... 2023-11-12

NASA 携手 IBM 发布 Hugging Face 平台最大开源地理空间 AI 基础模型

近日，IBM与开源AI平台HuggingFace共同宣布，基于美国宇航局（NASA）卫星数据构建的IBMwatsonx.ai地理空间基础模型现已在HuggingFace发布。它将成为HuggingFace上至今最大的地理空间基础模型，也是首个与NASA合作构建的开源AI基础模型。

动点科技 2023-08-10

全球最大开源AI社区Hugging Face宣布盈利网友：站着把钱挣了！

量子位 2024-07-18

近期资讯

AMD Radeon RX 9070 XT 显卡被曝游戏测试中和 RTX 4080 区别不大

IT之家12月26日消息，Chiphell论坛消息人士zhangzhonghao今日表示，一张显卡的公版款式在游戏测试中“和4080区别不大，5%以内”。结合上下文内容，此处指的应是AMD"RDNA4"独立显卡旗舰型号RadeonRX9070XT。参考现有显卡天梯图，RX9070XT的性能有望强于上代次旗舰RX7900XT。

IT之家 2024-12-26

1.0到2.0 看长虹模具中心传统制造到智能制造的“重生”之路

2020年实现数控设备数采上系统，2021年实施电火花半自动系统改造，2023年采用贵重物料自动称重系统、电极半自动装夹、AGV转运改造……6年以来，长虹模具中心不断在自动化改造的路上自我“折腾”、自我探索实践。

央广网 2024-12-26

性价比之选，美菱BCD-210L3CX：1099元到手的210升三门节能冰箱

根据用户评价和产品评测，美菱冰箱在满足日常冷藏和冷冻需求的同时，还提供了节能和低噪音的运行特性。此外，参与立减活动还可以享受额外的补贴和优惠，使得实际支付价格更低，进一步增强了其市场竞争力。-总容积：210L，其中冷藏室容积为121L，冷冻室容积为46L，中门容积为43L。

小米地瓜 2024-12-26

宇树“觉醒”，云深处“出海”：四足机器人批量化应用有望步入“iPhone”时刻｜2024年末出海观察

原地转体两周，再倒立转体三周半；跋山涉水下陡坡，稳定性和速度兼顾⋯⋯12月23日，宇树科技发布的一段不到2分钟的视频，展示其最新推出的UnitreeB2-W工业轮足机器人最新性能，收获了大量关注和好评，连马斯克也在社交平台X上转发。

每日经济新闻 2024-12-26

香港首航！C919新年起执飞沪港定期航班

记者12月26日获悉，中国东方航空计划自2025年元旦开始，使用国产大飞机C919，执飞“上海虹桥—香港”往返航班，正式开启国产大飞机在地区航线的商业运营，东航也将成为首家使用C919在香港执飞定期商业航班的航空公司。

北京日报 2024-12-26

3D打印机居然“进化”到了这种程度京东3D打印活动人气高涨

提起3D打印，你是否还停留在“科幻概念”的阶段?但在12月25日举行的京东“万物皆可打”3D打印活动现场，新款的3D打印机和众多3D打印作品却让用户大感震惊：原来3D打印机已经“进化”到了这种程度!现如今3D打印机所打印的玩具、手办、玩偶在细节、形象、逼真程度方面都十分出色，许多消费者日常生活中所购买的玩偶玩具等产品，也少不了3D打印技术...

中国财富网 2024-12-26

中科创达RUBIK AI Glass Lite版已获超3个品牌客户的选型合作预计2025年第一季度实现量产并上市

中科创达最新推出的RUBIKAIGlassLite版解决方案，很好地满足了当下AI眼镜在时尚、轻量化及自然语言交互方面的市场需求。目前，RUBIKAIGlassLite版已成功获得超过3个品牌客户的选型合作，预计2025年第一季度实现量产并上市。

证券时报 2024-12-26

江西煜明智慧光电申请LED灯珠光效提升专利，提升无荧光粉LED灯珠的灯效

金融界2024年12月26日消息，国家知识产权局信息显示，江西煜明智慧光电股份有限公司申请一项名为“一种LED灯珠光效提升的控制方法及系统”的专利，公开号CN119183225A，申请日期为2024年11月。专利摘要显示，本发明公开了一种LED灯珠光效提升的控制方法及系统，涉及照明控制技术领域。

金融界 2024-12-26

1168元起！极摩客推出G2 Plus/ G3 Plus迷你电脑

极摩客近日推出了两款新的迷你电脑产品，分别为G3Plus和G2Plus。这两款产品均搭载了英特尔N150处理器，并且在设计、接口等方面存在较大差异。G2Plus采用的是IntelN150处理器，配置为12GBLPDDR5内存，可选配M.22242SSD存储空间，最高可扩展至2TB。整机尺寸为87*87*39.5mm，重量约为0.21kg。

中关村在线 2024-12-26

年轻人的电竞新机登场！荣耀GT全面评测：颜值在线性价无敌

2024年末，荣耀正式将GT系列独立，定位于游戏体验和高性价比市场。但其实荣耀GT并非荣耀首款主打游戏概念的手机，早在6年前，荣耀Play便首发了GPUTurbo技术，提升游戏性能，该系列不断更新，推出了多款机型，满足了不同用户的需求。

驱动之家 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1