视觉理解、3D生成，豆包大模型上新，要让AI更实用，更好用！

作者：雷科技发布时间：2024-12-18

时光飞逝啊，家人们，前几天才大雪，眼瞅着又快到冬至了。

搁往年的情况，到了年底，这才到各大厂商纷纷发力的时候，毕竟年关将近嘛，总得搞出点啥新东西，一方面是给上头来点交代，还指着年终奖回去过年呢，另一方面也能给大家长长眼界。

特别是这AI行业，就连OpenAI一改之前大半年不更的惰性，直接开启了十二场直播，带来了包括主打整合功能的Projects、做到“耳聪目明”的高级语音模式，简化开发体验兄弟强化微调技术等全新功能演示。

既然GPT做了，那么国内大模型又怎么能不做呢，月之暗面Kimi发布视觉思考模型k1；腾讯微信推出多模态大模型POINTS 1.5；巨人网络发布千影有声游戏生成大模型，还有不胜枚举的初创公司带着自家模型的新进展试图刷个脸熟。

所以呢，豆包又又又更新了。

（图源：雷科技）

而且啊，这次还不是之前那每半个月发条站内信息告诉你的「小功能」更新，12月18日，字节跳动在上海举行了「火山引擎FORCE原动力大会·冬」，大会正式带来了豆包大模型家族的全面升级，并打造2000平方米的AI展区，以及举办10+场的专题论坛。

为了仔细观察一下豆包这一年来的进步，顺便看看字节接下来要折腾些什么新东西，小雷也是顶着凛冬，不远万里来到上海参与了本次开发者节的开幕演讲，接下来跟着我走就对了。

豆包大模型全面升级

在国产大模型中，豆包的起步确实是相对慢一点的。

当字节在去年10月上架自家首款AI原生应用——豆包App时，百度这边已经宣布在搜索、文库、地图等各种应用中全部植入了AI能力；阿里的通义千问已经到了2.0版本；就连一批资源不多的AI初创团队也已经陆续登上台面。

但或许是因为技术积累、厚积薄发的缘故，豆包AI生态在2024年实现了高速发展，甚至做到了后来居上。

在模型上，字节补全了图像、语音、音乐、视频、3D等不同模态的生成式AI模型；在应用上，豆包App已成为国内用户最多的ToC AI产品，截至11月底，累计用户规模已超过1.6亿，单日活跃用户接近900万。

不知不觉间，字节已经成为目前拥有最全生成式AI模型、最多AI应用的技术公司，而此时距离今年5月，字节跳动宣布自家豆包大模型正式开启对外服务以来，也就过了半年时间而已。

那么这次豆包，又给我们带来了什么惊喜呢？

首先是视觉理解模型。

（图源：雷科技）

研究显示，人类接收的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界，同时也会降低人们与大模型交互的门槛，为大模型解锁更丰富的应用场景。

在加入视觉理解模型后，现在豆包也能够像GPT-4o一样，接受文本、音频和图像任意组合的输入与输出，并通过深度融合视觉和语言模态，无需任何提示，即可识别日常生活中的大部分物体乃至企业，完成分析图表、处理代码、解答学科问题等交互。

豆包战略研究负责人周昊表示：“豆包一直在努力，让用户的输入更快更方便”。

正因如此，豆包产品非常注重多模态的输入和打磨，包括语音、视觉等能力，试图改变了人们对大模型交互体验的既定思路，让人机对话体验更接近人与人之间的实时对话。

目前，这些模型都已通过火山引擎开放给企业客户。

在视频创作领域，火山引擎及其背后的字节跳动，恐怕是最有发言权的。

抖音在全球掀起的全民视频创作热潮，造就了一个全新的互联网视频时代，所以，即梦AI的视频生成也更关注用户在实际使用时的创作流程和创作效果，而不仅仅是简单地生成画面和动作。

（图源：雷科技）

在大会上，即梦Dreamina张楠展示了两个令人惊艳的AI视频片段，从多人互动到运动长镜头，两个视频都可以在保证视频流畅度的同时确保视频元素的一致和主体风格不变化，在我看来已经足够惊艳出彩。

张楠认为，生成式AI技术可以把每个人脑子里的奇思妙想快速视觉化，“像做梦一样”。即梦希望成为“想象力世界”的相机，记录每个人的奇思妙想，帮助每个有想法的人轻松表达、自由创作。

不仅如此，在大会上张楠正式宣告，具备更长视频生成能力的豆包视频生成模型1.5版将于2025年春季正式推出，端到端实时语音模型也将很快上线，从而解锁多角色演绎、方言转换等新能力，为更多更精细的AI视频创造实现赋能。

大家熟悉的豆包大模型多款产品，在本次大会上也迎来重要更新。

（图源：雷科技）

豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品；文生图模型2.1版本，更是在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型目前已接入即梦AI和豆包App中。

最最最特别的，还是本次大会上首次亮相的豆包3D生成模型，该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

AI赋能游戏创作，或许并不是一场梦。

大模型应用加速落地

比起空口说白话的「能力」，对于用户来说，落到实处的「应用」显然是更值得关注的。

普通用户使用体验很好解决，豆包战略研究负责人周昊表示，做产品要把关键用户需求解决好，只要豆包App能做到输入方便、离用户近、模型能力更强，就能继续维持高速发展。

而在企业这边，面向诸多企业用户，火山引擎这次特地升级了火山方舟、扣子和HiAgent三款平台产品，帮助企业构建好自身的AI能力中心，高效开发AI应用。

（图源：雷科技）

其中，火山方舟发布了大模型记忆方案，并带来了全域AI搜索能力，前者在更低延迟和成本的基础上，为大模型赋予了「更加懂你」的能力，后者则能在记忆能力的基础上，做到一体化、场景化和个性化的搜索推荐，并对企业私域信息进行有机整合。

作为目前业内最便捷的AI Bot定制平台，现在扣子也获得了今天大模型升级的一系列能力，你依然可以通过按部就班地给出自己的需求来制作属于自己的AI Bot。

总感觉雷科技上线的小雷Bot也是时间该更新了，只要小雷努力一下，或许之后根据用户上传的照片、视频里的手机，给出购买建议这些功能也能实现？

最后，小雷还去逛了一下展区。

这次字节也在现场设置了五个不同的展示区，分别是：豆包大模型、构建AI创意中枢、AI驱动应用创新、持续创新的AI云与基础设施和AI加速行业跃迁。

（图源：雷科技）

要说里面比较有趣的，一个是网易伏羲和火山引擎合作的AI NPC，在数个不同故事主题的开放世界庞大背景下，火山大模型化身千行百业的NPC，融入进游戏的游历玩法中，为玩家带来与AI人物角色实时互动的全新体验。

（图源：雷科技）

还有前面提到的AI音乐，实测只需要几个关键词，在极短的时间里就能生成一首朗朗上口的音乐，根据要求切换不同的曲风并生成歌词，这次豆包还特地让一个小姐姐在现场演唱大模型生成的曲目，这种人机协同的新体验也是头一遭。

（图源：雷科技）

AI更实用，更好用

整个发布会看下来，字节跳动/火山大模型正在做的事情还挺好理解的：

“满足具体且真实的需求，关心用户具体且真实的生活。”

（图源：雷科技）

自ChatGPT发布，如今也差不多过去两年时间了，自全球掀起的这场大模型竞赛也已经有一年半时间了，但是如今怎么将大模型落地，依然是萦绕在每一家AI公司的最大命题。

有媒体统计，自从GPT-3.5上线以来，在各家大厂继续大规模投入的同时，中国新成立的AI公司已经有近8万家陷入注销、吊销或停业异常的状态，甚至出现部分厂商决定用已有的服务器转行游戏业的情况，百模大战的热闹和惨烈都出乎很多人的意料。

而火山引擎这边，则是在FORCE原动力大会·冬上，交出了一份大模型与行业结合的高分答卷。

作为世界排名第二、中国排名第一名的AI APP，数据显示，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。

（图源：雷科技）

不仅如此，豆包大模型还获得众多行业客户青睐，不仅与八成主流汽车品牌合作，更是接入到包括vivo、荣耀在内的多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

在我看来，豆包获得青睐背后的原因其实很简单——就是价格更低、效果更好。

在今天的大会上，豆包让视觉理解模型进入“厘时代”，价格来到了0.003/千tokens，一块钱能够处理284张图片，比行业价格便宜85％，诸如记忆能力、大模型推理成本也有肉眼可见的降低。

目前大模型的格局尚不清晰，我们很难预测一个超级应用何时出现，但以能力更强、价格更低和更易落地的大模型与行业融合，或许真的能加速大模型商业化的探索，也能从中找到更多AIGC应用与市场契合度的可能性。

火山引擎希望能助力更多企业实现智能化转型和业务增长，成为推动各行各业向前发展的强劲动力，迎接更加丰富的硬件品类、更快落地的技术应用、更加蓬勃的产业生态。这样一个目标，说着倒是容易，但想要实现的话，需要企业背后的决心、技术力和市场能力，缺一不可。

或许可以这么认为，在这场AI竞争淘汰赛中，字节跳动正在火力全开，而国产AI大模型的格局，很可能要有新变化了。

近期资讯

2024年第11期：圆翅锹属更新啦！新种：叶茂圆翅锹（Neolucanus yemaoi）

2024年第11期前言：最近锹甲发新种似乎进入竞赛模式，“你方唱罢我登场”，一个接一个，有点令人眼花缭乱，仅仅间隔2-3天，12.04 又有新种发表：叶茂圆翅锹（Neolucanus yemaoi）。印象中圆翅锹属近10来年几乎没什么新种，除了2021年我国台湾地区的泰雅圆翅锹（Neolucanus atayal Lin & Chou, 2021）外，这次算是又更新了。叶茂圆翅锹一、叶茂圆翅锹概况叶茂圆翅锹（Neolucanus yemaoi）叶茂圆翅锹正模（引用自文献）基本信息：分布云南红河州，栖息地

罗氏虫社 2024-12-11

商场智能导视系统：开启购物中心智能化新篇章

大型购物中心常遇寻路难问题，影响顾客体验和消费。传统人工管理效率低、准确度差。通过商场智能导视系统智慧导航与可视化管理方案，解决寻路不便和管理低效，提升购物体验和运营效能，引领商场智能化转型。1.商场3D导视图通过二三维一体化展示的3D地图，以立体形式直观呈现每一层的商铺、走道、电梯和楼梯等布局元素，确保清晰可见。用户不仅能够流畅地在不同楼层间切换视图，实现快速定位目标商铺，还能享受缩放、旋转等功能带来的秒级响应体验，让导航更加便捷高效。2.室内跨楼层导航导航系统提供跨楼层和楼宇的无缝室内外导航，根据用户

千目信息 2024-12-11

龙昌动保 2024-12-11

红榜导师（1/100）| 北邮计算机导师

杨老师特点： 1、北邮最好的科研老师 2、学术能力强 3、人品好研究方向： 1、大语言模型（LLM） 2、图神经网络（GNN）3、LLM+GNN 诚心帮助硕博新生避坑 #北邮 #北邮计算机 #北京邮电大学 #北京邮电大学计算机 #bupt #科研保姆 #红榜导师 #图神经网络 #表征学习 #211大学

科研保姆 2024-12-11

多肽合成：Ala-Ala-Gln （290312-62-8）

Ala-Ala-Gln 是一种肽。 Ala-Ala-Gln 可用于各种生化研究。 [图片] 英文名称：Ala-Ala-Gln CAS号：290312-62-8 分子式：C11H20N4O5 分子量：288.30 纯度：≥95% or 98% 货期：现货性状：白色固体粉末储存条件：-20℃ 序列：Ala-Ala-Gln 序列缩写：AAQ Ala-Ala-Gln，一种由三个氨基酸残基组成的短肽，具体由两个连续的丙氨酸（Ala）分子和一个谷氨酰胺（Gln）分子依次连接而成，是生物化学研究领域中一种重要的实验

正肽生化 2024-12-12

送样指南|单细胞蛋白质组学首关秘籍，请查收

单细胞蛋白质组学（single-cell proteomics）是指在单个细胞水平上对其蛋白质组进行定量和定性的分析技术，旨在研究单个细胞内蛋白质组成、变化及其翻译后修饰。单细胞蛋白质组学应用于多个领域，它能够揭示同种细胞之间的异质性，特别是在肿瘤研究中，帮助理解癌细胞的耐药性、进展及其分子机制。此外，单细胞蛋白质组学可用于研究细胞发育与分化过程中蛋白质表达的变化，从而深入探讨细胞命运决定的分子机制。在疾病研究方面，通过分析患者或疾病模型中单个细胞的蛋白质谱，揭示与疾病相关的关键分子机制，推动疾病的早期诊

百泰派克生物科技 2024-12-12

石墨烯粉体的制备流程

石墨烯，这种由单层碳原子以六角蜂窝状排列形成的二维材料，自2004年被发现以来，就因其独特的物理、化学和力学性质而备受瞩目。石墨烯粉体，作为石墨烯的一种形态，是由无数的石墨烯片层组成的纳米级微粒，具有广泛的应用前景。石墨烯粉体的特性：石墨烯粉体的基本特性源于其独特的结构。作为一种二维材料，石墨烯具有极高的强度和韧性，其强度是钢铁的数百倍，同时具有优异的导电性和导热性。这些特性使得石墨烯粉体在电子、能源、生物医学等多个领域都有着广泛的应用前景。石墨烯粉体的制备方法多样，包括机械剥离、化学气相沉积（CVD）、

宁波柔碳-石墨烯产品 2024-12-12

视觉理解、3D生成，豆包大模型上新，要让AI更实用，更好用！

推荐体验

相关资讯

字节跳动发布豆包视觉理解、3D生成等新模型：每千tokens输入3厘

字节跳动发布豆包视觉理解、3D生成等新模型，加速多模态应用落地

火山引擎豆包大模型升级，视频理解与3D生成能力惊艳亮相！

OpenAI文本生成3D模型再升级，数秒完成建模，比Point·E更好用

彻底搞懂Transformer算法在检测/分割/3D视觉/自动驾驶/视觉大模型上的应用

近期资讯

2024年第11期：圆翅锹属更新啦！新种：叶茂圆翅锹（Neolucanus yemaoi）

商场智能导视系统：开启购物中心智能化新篇章

建筑装修垃圾分拣生产线：环保与资源再利用的桥梁

悬浮物监测仪在地表水的应用及重要性

建筑装饰垃圾分类筛选分拣设备的革新之路

饲用胆汁酸：养殖动物脂肪消化催化剂&肠道屏障守护者

红榜导师（1/100）| 北邮计算机导师

多肽合成：Ala-Ala-Gln （290312-62-8）

送样指南|单细胞蛋白质组学首关秘籍，请查收

石墨烯粉体的制备流程

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响