Karpathy新教程爆火，网友抢着送他H100：从头复现GPT-2训练

作者：量子位发布时间：2024-06-01

LLaMA 编程 OpenAI

梦晨发自凹非寺

量子位 | 公众号 QbitAI

大神Karpathy已经不满足于用C语言造Llama了！

他给自己的最新挑战：复现OpenAI经典成果，从基础版GPT-2开始。

挑战成功本身并不意外，但是只花费20美元、90分钟完成训练，Loss和评测还超越原版，就！有！点！过！分！了！。

不仅如此，他把复现过程写成了完整教程，果不其然再次火爆。

由于Karpathy自己租用的是A100云服务，训练124M版本花费20了美元。

不过有人按照教程用H100跑了一把，不仅训练时间更短，还更省钱了：43分钟完成，只花14美元。

另外Karpathy还自掏腰包200美元，为大家复现了350M版本的GPT-2。

但1.5B大杯版，照计算要花1周时间和2500美元，有点玩不起了，主要他手里也没有H100。

还好各路卡壕非常仗义，该出手时就出手：

有需要随时给你用！

只收你2美元一小时！

90分钟复现GPT-2

这次Karpathy复现GPT-2，还是基于他的llama.c代码库，端到端完成训练。

代码库这些日子被他不断完善，现在启动训练非常简单：

具体来说，网络结构是GPT-2，但许多超参数设置遵循了GPT-3的那一套。

Karpathy分析，按照Chinchilla定律的标准，GPT-2在100B tokens上训练应该属于过度训练了，后面收益递减，124M模型按计算2.5Btokens就够。

不过他自己训练了10B tokens，训练数据也用刚刚发布不久FineWeb，比起OpenAI原版WebText数据集token质量更高。

原版WebText从未公开，无法在控制变量在相同条件下实验，另外今天的互联网数据分布，也可能与5年前大不相同了。

据推测，评测分数比原版更高的原因可能就在这些差别了。

另外有网友注意到，训练时的GPU利用效率也比OpenAI的工作高，不过Karpathy表示主要是由于用了单个云服务节点，不需要考虑服务器间通信问题。

最后，对于已训练完的350M版本GPT-2，同样取得了超越原版的成绩。

掌声响起来～

大神也不是那么卷‍‍

自今年二月份再次从OpenAI辞职之后，Karpathy已经用C语言搞出不少大模型成果，从Llama到GPT玩了一遍。

观察他的GitHub热力图，只有刚开始休息了一段时间，进入4月以后就越来越卷了。

这是辞职在家还要997的节奏？

其实Karpathy这段时间也旅游过，也分享过在打的游戏，并没那么卷。

根据他晒出的一周时间表：在职时975，离职后工作4-20小时不等，看心情。

周一工作4小时，
周二工作14小时到晚上11点
周三失眠了，4点爬起来写代码，到中午崩溃
周四干了20小时
周五休息
周六12小时
周日4小时
然后出去旅游两周。

大家看到这里也比较好奇，是规律的安排感觉更好，还是随心所欲能有奇效呢？

Karpathy自己也不确定，不过混乱的日程安排肯定更有趣。

最后他还分享了一条自由职业心得：

起床后直接开始工作，不看任何消息，吃完午饭再上网，避免外界信息分散注意力。

有条件的朋友可以试试了。

教程：

https://github.com/karpathy/llm.c/discussions/481

参考链接：

[1]https://x.com/karpathy/status/1795484547267834137

[2]https://www.threads.net/@karpathy

— 完—

量子位年度AI主题策划正在征集中！

欢迎投稿专题一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

摘养NFC100%纯椰子水10盒大促：到手19.9元

摘养100%纯椰子水250ml*10盒平时要卖49.9元，今日可叠加30元限时优惠券，到手19.9元，包邮。购买链接：天猫(券后19.9元)摘养100%纯椰子水0添加蔗糖，0脂，甄选东南亚本地椰子。NFC鲜榨，

2024-12-30

十年还未完善Windows深色模式！微软被痛批

快科技12月30日消息，自2016年微软为Windows 10引入深色模式切换功能以来，用户一直期待系统界面能够实现全面的深色主题。然而将近十年过去了，Windows的深色模式依旧存在诸多缺陷。Windows

2024-12-30

机械革命无界14N笔记本首发5999元：酷睿Ultra 5 228V

快科技12月30日消息，机械革命无界14N笔记本目前已经上市，首发5999元。机械革命无界14N采用冲压＋CNC精雕工艺成型，具备如CNC一体成型般的质感，CD两面衔接过渡自然，无明显缝隙。屏幕采

2024-12-30

25万以内全品类马力最大！最值得买的领克Z10正式交付

快科技12月30日消息，就在今日，领克Z10 702km四驱Halo正式交付，该车绝对是最值得买的Z10，同时也是该价位最值得买的电动轿车，极其适合驾驶爱好者。本月初，领克加推了该款车型，售价22.98万

2024-12-30

中国英雄机长就韩国客机失事发声：特情和训练有太多不同

快科技12月30日消息，当地时间29日上午9时07分左右（北京时间29日8时07分左右），一架正在着陆的客机在韩国全罗南道的务安国际机场偏离跑道，与围栏外墙发生碰撞后爆炸起火。据悉，发生事故的

2024-12-30

乱步印花港风针织衫大促：V领单排简约大方到手24.9元/件

乱步印花针织衫/开衫毛衣日常售价为49.9元，下单领取50元优惠券，拍2件共发2件实付49.8元包邮，折合24.9元/件。购买链接：天猫(2件49.8元)共有28款可选，包含开衫/套头款式、印花/纯色设计

2024-12-30

22130米穿越天山！世界最长高速公路隧道贯通

12月30日11时许，作为世界上最长的高速公路隧道，天山胜利隧道全线贯通！天山胜利隧道横穿天山中部，全长22.13公里，是新疆乌尉（乌鲁木齐至尉犁）高速公路的“咽喉”工程，双车道设

2024-12-30

编造理想MEGA车内摄像头拍摄色情图片：一男子获刑7个月

快科技12月30日消息，理想汽车法务部最新发文，通报了一起有关理想MEGA谣言的后续，涉事男子被除刑拘7个月的处罚。理想汽车法务部称：关于“MEGA车内摄像头拍摄色情图片”谣言一事

2024-12-30

科大讯飞刘庆峰：每个人都能站在AI肩膀上成为更好的自己

快科技12月30日消息，据央视报道，近日，科大讯飞董事长刘庆峰参加了首届“跨年科技秀”——《中国科技创新盛典》。在盛典现场，科大讯飞董事长刘庆峰分别通过机器狗小

2024-12-30

钻石巨头：今年是钻石销售最糟一年库存达顶峰

快科技12月30日消息，据报道，全球最大钻石生产商戴比尔斯集团钻石库存处于2008年金融危机以来的最高水平，价值大约在20亿美元。戴比尔斯集团首席执行官阿尔·库克（Al Cook）表示：&ld

2024-12-30

Karpathy新教程爆火，网友抢着送他H100：从头复现GPT-2训练

推荐体验

相关资讯

为什么要纯C语言手搓GPT-2，Karpathy回应网友质疑

在 NVIDIA DGX Cloud 上使用 H100 GPU 轻松训练模型

OpenAI把微软电网搞崩，GPT-6被曝25年发布，训练刷爆10万张H100

Karpathy新视频又火了：从头构建GPT Tokenizer

买更多H100卡，Meta将于明年初训练新模型，能力堪比GPT4

近期资讯

摘养NFC100%纯椰子水10盒大促：到手19.9元

十年还未完善Windows深色模式！微软被痛批

机械革命无界14N笔记本首发5999元：酷睿Ultra 5 228V

25万以内全品类马力最大！最值得买的领克Z10正式交付

中国英雄机长就韩国客机失事发声：特情和训练有太多不同

乱步印花港风针织衫大促：V领单排简约大方到手24.9元/件

22130米穿越天山！世界最长高速公路隧道贯通

编造理想MEGA车内摄像头拍摄色情图片：一男子获刑7个月

科大讯飞刘庆峰：每个人都能站在AI肩膀上成为更好的自己

钻石巨头：今年是钻石销售最糟一年库存达顶峰

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响