GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改羊驼宝宝

作者：量子位发布时间：2023-07-24

GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改羊驼宝宝

梦晨发自凹非寺

量子位 | 公众号 QbitAI

大神仅花一个周末训练微型LLaMA 2，并移植到C语言。

推理代码只有500行，在苹果M1笔记本上做到每秒输出98个token。

作者是OpenAI创始成员Andrej Karpathy，他把这个项目叫做Baby LLaMA 2（羊驼宝宝）。

虽然它只有1500万参数，下载下来也只有58MB，但是已经能流畅讲故事。

所有推理代码可以放在C语言单文件上，没有任何依赖，除了能在笔记本CPU上跑，还迅速被网友接力开发出了各种玩法。

llama.cpp的作者Georgi Gerganov搞出了直接在浏览器里运行的版本。

提示工程师Alex Volkov甚至做到了在GPT-4代码解释器里跑Baby LLaMA 2。

大模型套娃小模型，成了。

羊驼宝宝诞生记

据Karpathy分享，做这个项目的灵感正是来自llama.cpp。

训练代码来自之前他自己开发的nanoGPT，并修改成LLaMA 2架构。

推理代码直接开源在GitHub上了，不到24小时就狂揽1500+星。

训练数据集TinyStories则来自微软前一阵的研究。

2023新视野数学奖得主Ronen Eldan、2023斯隆研究奖得主李远志联手，验证了1000万参数以下的小模型，在垂直数据上训练也可以学会正确的语法、生成流畅的故事、甚至获得推理能力。

此外，开发过程中还有一个插曲。

Karpathy很久不写C语言已经生疏了，但是在GPT-4的帮助下，还是只用一个周末就完成了全部工作。

对此，英伟达科学家Jim Fan评价为：现象级。

最初，在CPU单线程运行、fp32推理精度下，Baby LLaMA 2每秒只能生成18个token。

在编译上使用一些优化技巧以后，直接提升到每秒98个token。

优化之路还未停止。

有人提出，可以通过GCC编译器的-funsafe-math-optimizations模式再次提速6倍。

除了编译方面外，也有人提议下一步增加LoRA、Flash Attention等模型层面流行的优化方法。

Baby LLaMA 2一路火到Hacker News社区，也引发了更多的讨论。

有人提出，现在虽然只是一个概念验证，但本地运行的语言模型真的很令人兴奋。

虽然无法达到在云端GPU集群上托管的大模型的相同功能，但可以实现的玩法太多了。

在各种优化方法加持下，karpathy也透露已经开始尝试训练更大的模型，并表示：

70亿参数也许触手可及。

GitHub：

https://github.com/karpathy/llama2.c

在浏览器运行Baby LLaMA 2：

https://ggerganov.com/llama2.c

参考链接：

[1]https://twitter.com/karpathy/status/1683143097604243456

[2]https://twitter.com/ggerganov/status/1683174252990660610

[3]https://twitter.com/altryne/status/1683222517719384065

[4]https://news.ycombinator.com/item?id=36838051

近期资讯

广西徐沃取得自适应山地凹凸不平复杂地形的四轮驱动异形车桥专利，能够保障车辆越过复杂路面

金融界2024年12月26日消息，国家知识产权局信息显示，广西徐沃工程机械设备有限公司取得一项名为“一种自适应山地凹凸不平复杂地形的四轮驱动异形车桥”的专利，授权公告号CN222202203U，申请日期为2024年1月。

金融界 2024-12-26

北京百度网讯申请匝道控制及匝道控制模型训练专利，基于目标表征确定目标控制方案并依此对匝道进行控制

科技有限公司申请一项名为“匝道控制及匝道控制模型训练方法和装置”的专利，公开号CN119181239A，申请日期为2024年8月。专利摘要显示，本公开提供了一种匝道控制及匝道控制模型训练方法和装置，涉及人工智能技术领域，具体为智能云、智慧交通等技术领域。

金融界 2024-12-26

中国交通信息科技集团有限公司杭州分公司申请一种基于深度学习的交通地理信息数据处理方法及系统专利，能够有效判断和预测交通流量及拥堵情况

金融界2024年12月26日消息，国家知识产权局信息显示，中国交通信息科技集团有限公司杭州分公司申请一项名为“一种基于深度学习的交通地理信息数据处理方法及系统”的专利，公开号CN119181249A，申请日期为2024年11月。

金融界 2024-12-26

中通服咨询设计研究院申请基于轨迹数据的交通信号周期时长动态调整方法专利，能够提高交通流效率

金融界2024年12月26日消息，国家知识产权局信息显示，中通服咨询设计研究院有限公司申请一项名为“一种基于轨迹数据的交通信号周期时长动态调整方法”的专利，公开号CN119181262A，申请日期为2024年9月。

金融界 2024-12-26

中科探碳申请基于可见光遥感技术的交通流量监测专利，提升交通流量数据采集效率与准确性

金融界2024年12月26日消息，国家知识产权局信息显示，中科探碳（北京）科技有限公司申请一项名为“一种基于可见光遥感技术的交通流量监测方法及系统”的专利，公开号CN119181258A，申请日期为2024年9月。专利摘要显示，本发明涉及交通监测技术领域，具体涉及一种基于可见光遥感技术的交通流量监测方法及系统。

金融界 2024-12-26

浙江天鸿取得蜂窝气泡隔热遮阳挡专利，解决现有部分遮阳设备安装与收起困难的问题

金融界2024年12月26日消息，国家知识产权局信息显示，浙江天鸿汽车用品股份有限公司取得一项名为“种蜂窝气泡隔热遮阳挡”的专利，授权公告号CN222202219U，申请日期为2024年5月。专利摘要显示，本实用新型提供了一种蜂窝气泡隔热遮阳挡，用于解决现有的部分遮阳设备安装困难，收起较为麻烦的技术问题。

金融界 2024-12-26

浪潮智慧科技申请一种基于大数据的交通数据采集及实时路况分析专利，能够提升交通管理效率和响应速度

金融界2024年12月26日消息，国家知识产权局信息显示，浪潮智慧科技有限公司申请一项名为“一种基于大数据的交通数据采集及实时路况分析系统、方法、设备及介质”的专利，公开号CN119181242A，申请日期为2024年9月。

金融界 2024-12-26

平安科技申请交通流预测专利，提高交通流预测模型准确性

金融界2024年12月26日消息，国家知识产权局信息显示，平安科技（深圳）有限公司申请一项名为“交通流预测方法、装置、终端设备及计算机可读存储介质”的专利，公开号CN119181240A，申请日期为2024年8月。

金融界 2024-12-26

西安兆格申请一种基于车载 5G 模组的智能路况提醒系统专利，能为行驶车辆提供智能路况预警

金融界2024年12月26日消息，国家知识产权局信息显示，西安兆格电子信息技术有限公司申请一项名为“一种基于车载5G模组的智能路况提醒系统”的专利，公开号CN119181246A，申请日期为2024年9月。

金融界 2024-12-26

广东辰奕智能申请应用于万能遥控器的数据通信专利，大幅度降低对存储容量的要求

金融界2024年12月26日消息，国家知识产权局信息显示，广东辰奕智能科技股份有限公司申请一项名为“应用于万能遥控器的数据通信方法、装置、设备及介质”的专利，公开号CN119181231A，申请日期为2024年11月。

金融界 2024-12-26

GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改羊驼宝宝

GPT-4里套娃LLaMA 2！OpenAI创始成员周末爆改羊驼宝宝

推荐体验

相关资讯