离开OpenAI的大神卡帕西「开课了」：新项目日增千星，还是熟悉的min代码风

作者：量子位发布时间：2024-02-24

OpenAI 编程 LLaMA

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

大神Karpathy从OpenAI离职，原本扬言要大休一周。

但转眼，新项目就已上线GitHub，日增上千星的那种。

还是熟悉的卡式配方：

74行Python代码搞定大模型标记化（tokenization）中常用的BPE（Byte Pair Encoding）算法，实现该算法的最小、最干净代码版本。

甚至：

是不是有点快3万标星的nanoGPT内味儿了？

这波啊，还真是让网友们给猜着了：

Time to cook。

毕竟，Karpathy除了前特斯拉AI总监、OpenAI创始成员的title，最为网友所熟悉的，就是“AI领域大善人”、“擅长将复杂问题简单化的卡老师”这样的身份了（手动狗头）。

BPE代码最小化版本

还是具体来看一下，Karpathy老师这次又煮出了一锅什么样的饭。

项目名minbpe已经说明一切：BPE算法的最小、最干净代码版本。

BPE（字节对编码）是随着GPT-2而流行起来的标记化算法。现在，包括GPT系列、Llama系列和Mistral在内，一众大模型都用到了这一算法来训练分词器。

BPE的主要优势在于：

高效：通过合并频繁出现的字节对来逐步构建词汇表，可以有效地减少模型需要处理的词汇量。
灵活：可以将词汇表外的单词分解为已知子词来进行处理，有助于模型理解和生成未在训练中出现的单词。

而在minbpe这个项目中，Karpathy提供了两个Tokenizer（分词器），它们都可以执行分词器的3个主要功能：

基于特定文本训练词汇表和合并操作
把文本编码成token
把token解码为文本

具体而言，在basic.py中，minbpe用74行Python代码，完成了对直接在文本上运行的BPE算法的最简单实现。

在regex.py中，minbpe实现的是一个正则表达式分词器，该分词器利用正则表达式进一步拆分输入的文本。

另外，在正则表达式分词器的基础之上，minbpe还在gpt4.py中提供了一个GPT4Tokenizer，可以准确在线tiktoken库中的GPT-4标记化。

注：tiktoken是一种快速BPE分词器。

base.py则是一个基类，包含了训练、编码和解码的存根（stubs），提供了保存和加载的功能，并集成了一些常见的辅助工具函数。在实际应用中，开发者应该通过继承这个基类来实现具体的分词器功能。

Karpathy提到，他在霉霉的维基百科文本上尝试训练了两个主要的分词器。train.py在他的M1 MacBook上运行时间大概为25秒。

如果你还有什么不清楚的地方，别担心，卡老师已经计划要出视频了：

Karpathy出走OpenAI，许多猜测指向他的“下一篇章”是大语言模型系统（LLM OS）：

如今正式工作还未揭示，但看样子Karpathy已经拾起了“教学育人”的副业，小伙伴们可以蹲起来了。

参考链接：

https://github.com/karpathy/minbpe/

— 完—

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

RTX 5090主板曝光：硕大GPU、功耗可能600W

百度贴吧“nvidia吧”近日有用户曝光了英伟达即将发布的旗舰级游戏显卡“GeForce RTX 5090”主板（PCBA）的谍照。该照片显示的芯片布局与近期Chiphell论坛曝光的RTX 5090显

2024-12-27

科教兴国筑梦未来！比亚迪30亿教育慈善基金启动仪式

比亚迪30亿教育慈善基金启动仪式将于2024年12月30日10:30正式开始。科技兴则民族兴，教育强则国家强，比亚迪将携手众多高校和科技馆、博物馆，助力科教兴国。

振亭 2024-12-27

吃一口噎得脖子抻出二里地！这种酸奶爆火：2类人食用注意

最近，社交媒体刮起一阵“干噎酸奶”风。各种博主纷纷尝试，不断将其搭配花样推陈出新，不过大家的食用体验似乎都不怎么美好，得出了“吃一口脖子抻出二里地”的品尝心得。

2024-12-27

超级小爱上线：小米15/REDMI K80系列首发尝鲜

快科技12月27日消息，今天，小米澎湃OS官微宣布，超级小爱首次面向正式版用户开放升级。据悉，超级小爱是小爱同学的超级AI进化版，致力于打造一个全生态的AI智能助手，它采用全新视觉设计，支

振亭 2024-12-27

起飞！AMD锐龙9 9950X3D细节曝光：5.65GHz、128MB L3缓存

快科技12月27日消息，AMD即将发布的最新旗舰处理器锐龙9 9950X3D的CPU-Z截图曝光，我们也得以一见这款处理器的参数。截图显示，这款处理器拥有16核32线程，CPU 的版本号为GNR-B0 ，其中G

黑白 2024-12-27

小米澎湃OS 2首次重磅更新！张国全：坚决不做一锤子买卖

快科技12月27日消息，今日，小米发布小米澎湃OS 2升级公告，这是澎湃OS 2发布后的首次重大版本更新，超级小爱首次向正式版用户开放。小米手机系统软件部总监张国全发文，称今天起，将开启一轮

拾柒 2024-12-27

双路96核心！俄罗斯用上自研CPU：偷偷配八块NV GPU

快科技12月27日消息，俄罗斯服务器厂商Graviton宣布，已经开始供货首批AI/HPC服务器，基于俄罗斯自研的CPU处理器，可搭配最多八块GPU计算卡。该处理器型号为S2124B，配备两颗48核心处理器，共

2024-12-27

小米超级小爱首次开放：新增三大能力支持5种唤醒

快科技12月27日消息，今日，小米宣布澎湃OS 2首次OTA升级，超级小爱首次向正式版用户开放，小米15 系列、小米14 系列、REDMI K80系列、REDMI K70至尊版即日起开始灰度。据了解，超级

拾柒 2024-12-27

一款革命性体验PC即将降临！联想官宣CES 2025 PC新品

快科技12月27日消息，联想官方宣布，将在北京时间2025年1月8日的CES 2025现场，发布多款革命性的笔记本电脑，其中预计包括全新的卷轴屏笔记本。联想表示，将在CES 2025发布多款革命性的笔记本

2024-12-27

美团无人机出海开门大吉：获迪拜商业运营首张证书！

快科技12月27日消息，据媒体报道，今日，在2024美团机器人研究院学术年会上，美团副总裁、美团机器人研究院理事长毛一年表示，美团无人机已拿到首张在迪拜无人机送货许可证。他表示，美团无人机

2024-12-27

离开OpenAI的大神卡帕西「开课了」：新项目日增千星，还是熟悉的min代码风

推荐体验

相关资讯