好看的人都“在看”
01 大模型发展亟需高质量“教材”相伴
大模型发展如火如荼,但高质量语料的缺乏正日益成为大模型发展的瓶颈。视觉中国供图
1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。
这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”
大模型训练语料短缺问题严重
科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。
虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。
值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。
中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。
上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。
高质量语料应具备七大特征
那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。
邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。
同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。
此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。
“高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。
完善相关机制提高语料质量
记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”
“人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。
正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。
同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。
除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。(来源:科技日报)
02 英伟达正开发 6GB 显存版 RTX 3050 显卡:配备 2304 个 CUDA 核心,TDP 仅 70W
1 月 15 日消息,据 VideoCardz 报道,英伟达正在研发 6GB 显存的 RTX 3050 显卡,预计将在未来几周内发布上市。
与 2022 年 1 月推出的 8GB 显存版 RTX 3050 不同,这款新型号的内核数更少、显存更少、带宽和功耗也更小。
这款显卡配备 2304 个 CUDA 核心,规格类似于 RTX 3050 OEM 版本,但显存总线位宽减少到 96bit,因此带宽直接从 224 GB/s 下降至 168 GB/s。
RTX 3050 8GB 与 RTX 3050 6GB 对比
从规格来看,这款显卡完全可以命名为 RTX 3040 而不是 3050,外媒预测它的定价会在 179 美元(备注:当前约 1285 元人民币)左右,相比现有 RTX 3050 更加划算。
此外,考虑到仅 70W 的 TDP 设计,这款显卡完全可以仅凭 PCIe 供电轻松驱动,所以相信会有很多厂商推出无外接供电的刀卡,甚至被动散热式显卡,敬请期待。
显卡规格 | ||||
---|---|---|---|---|
sku | RTX 3050 6GB | RTX 3050 8GB OEM | RTX 3050 8GB | RTX 3060 12GB |
GPU | GA107-325 (?) | GA107-140 | GA106-150 | GA106-400 |
核心 | 2304 | 2304 | 2560 | 3584 |
基础频率 | 1042 MHz | 1510 MHz | 1552 MHz | 1320 MHz |
加速频率 | 1470 MHz | 1760 MHz | 1777 MHz | 1770 MHz |
显存 | 6GB G6 | 8GB G6 | 8GB G6 | 12GB G6 |
显存速度 | 14 Gbps | 14 Gbps | 14 Gbps | 15 Gbps |
显存位宽 | 96-bit | 128-bit | 128-bit | 192-bit |
显存带宽 | 168 GB/s | 224 GB/s | 224 GB/s | 360 GB/s |
TGP/TBP | 70W | 130W | 130W | 170W |
MSRP | 179 USD (?) | OEM | 249 USD | 329 USD |
上市时间 | 2024 二月 | 2022 七月 | 2022 一月 | 2021 二月 |
(来源:IT之家)
03 OpenAI 悄然更新使用政策
据 The Intercept 报道,OpenAI 近日悄然在其使用政策中删除了「明确禁止将其技术用于军事目的」的措辞。
截至 1 月 10 日,OpenAI 的「使用政策」页面还包括禁止「具有高人身伤害风险的活动」,特别是应用于「武器开发」和「军事和战争」。
而新政策只保留了「不得使用我们的服务伤害自己或他人」的条款,并以「开发和使用武器」为例,但「军事和战争」这个更全面的禁令已经不复存在。
不过,OpenAI 发言人 Niko Felix 对此回应称,新政策旨在创建一套易于记忆和应用的通用原则,目的是使文件「更清晰」和「更易读」。(来源:爱范儿)
04 华硕推出 12 合 1 雷电 4 扩展坞 DC500,提供 UHS-II 读卡器、HDMI 2.1、2.5G 网口等
1 月 14 日消息,华硕推出了一款雷电 4 扩展坞,名叫 Triple 4K Thunderbolt 4 Dock DC500,号称是一款专为创作者设计的一体式扩展坞,也是全球最小的 12 合 1 雷电 4 扩展坞,定价 349 美元(备注:当前约 2506 元人民币)。
DC500 提供了雷电 4(40 Gbps,DP1.4)和两个 HDMI 2.1 接口,支持同时连接三台 4K 60Hz 显示器,这也是它名字的由来。
当然,如果你愿意的话,也可以连接一个 8K 60Hz 显示器,或者一个 4K 60Hz 显示器 + 一个 4K 120Hz 显示器。
这款拓展坞具有两个 UHS II 卡槽,可兼容 SD 4.0 和 microSD 卡。此外,除了常规 USB 接口外,它还提供了 2.5 Gbps 网口和 100W 的直通电源,从而为连接的笔记本电脑供电。
此外,DC500 支持水平或者竖直摆放,它还配有带锁定旋钮的可调节支架,从而方便用户将其固定在显示器背面或桌子边缘。
05 苹果 Vision Pro 25 分钟试戴流程曝光
据彭博社记者 Mark Gurman 报道,苹果 Vision Pro 将于 2 月 2 日发售,本周五(1 月 19 日)开始预订。苹果预计早期尝鲜者会带来一波销售热潮,但随后需求就会逐渐减少。
Gurman 透露,苹果准备了有史以来最复杂的推销宣传,其中包括长达 25 分钟的演示。本月,苹果在加州库比蒂诺总部举办了培训会,数百名员工参与其中,熟悉整个演示流程。
演示开始时,零售人员使用类似设置 Face ID 的应用程序扫描用户的面部。扫描结果将告诉演示的员工,客户需要的遮光罩、泡沫垫和头带尺寸。
如果用户佩戴眼镜,零售店将有一个设备来扫描其镜片以获取度数。商店将有数百个眼镜镜片可供试戴。
一切准备就绪后,员工就会讲解界面操作,包括如何用眼睛控制指针、如何通过手势进行选择,以及如何佩戴头显。
之后,用户还将被引导查看静态图像、空间照片和视频,还将展示如何使用该设备作为电脑或 iPad 的替代品等。(来源:爱范儿)
06 EK推出全球首款芯片直触式一体水冷,适用于英特尔 LGA1700 平台
1 月 14 日消息,在今年的 CES 2024上,EK 携手超频散热专家 Roman “der8auer”打造出了世界首款芯片直触式一体水冷 ——EK-Nucleus AIO CR360 Direct Die D-RGB – 1700。从命名也能看得出来,这是一款专为开盖版英特尔 LGA 1700 处理器而设计的一体式水冷散热器。
如图所示,这款散热器与该公司的 360mm Lux 型号十分相似,但它水冷泵头采用了一种特殊的定制散热板,可以与芯片完全接触,推荐搭配 Thermal Grizzly 暴力熊的 Conductonaut 液金导热膏使用。
同时,EK 还为其附增两个非常有特色的泵盖。默认的铝制泵盖上印有“骷髅头”图案,周围还有一圈优雅的 LED 灯;另一款铝盖上也有 LED 灯圈,但外观相比起来更加简约。
由于开盖 CPU 失去了框架结构完整性,所以用户还需要将接触框架与散热器固定在一起,从而避免因压力不均而导致 CPU 针脚翘曲或弯曲。此外,EK 还提供了一块保护泡沫,以防止液金溢出到 CPU 周围的电子元件上。
据介绍,开盖散热可以将英特尔酷睿 i9-14900K 的温度降低高达 12°C,而这款散热器定价高达 170 美元(备注:当前约 1221 元人民币),比 EK-Nucleus AIO CR360 Lux D-RGB 高出约 20 美元。(来源:IT之家)
投稿 | 合作
《电脑爱好者》杂志社
邮箱:lsy@cfan.com.cn