当前位置:首页|资讯

豆包大模型家族全新升级,视觉理解模型可解题、优化作文

作者:多知网发布时间:2024-12-19

多知12月19日消息,字节跳动18日在“火山引擎Force大会”上,带来豆包大模型家族全新升级。

会上透露 ,豆包大模型12月日均tokens使用量超过4万亿,较5月发布时期增长超过33倍。

tokens调用规模化增长,且在不同场景中都有应用。比如信息处理场景,最近3个月豆包大模型调用量增长了39倍,帮助企业更好的分析和处理内外部数据;在客服与销售场景,调用量增长16倍,帮助企业更好的服务客户,扩大销售;在硬件终端场景,增长13倍,AI工具增长9倍。

本次大会上,火山引擎正式发布了豆包·视觉理解模型,用户可以同时输入文本和图像相关的问题,模型能够综合理解并给出准确的回答。

根据介绍,豆包·视觉理解模型能力包括:

更强的内容识别能力:不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。

更强的理解和推理能力:不仅能更好地识别内容,还能根据所识别的文字和图像信息进行复杂的逻辑计算。

更细腻的视觉描述能力:可以基于图像信息,更细腻地描述图像呈现的内容,还能进行多种文体的创作。

基于以上能力,豆包·视觉理解模型在教育、旅游、电商等场景有着广泛的应用。如在教育场景中,为学生优化作文、科普知识、儿童陪伴等;在旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识……

火山引擎还宣布,豆包视觉理解模型每千tokens输入价格定为3厘(即0.003元),相当于一块钱可以处理284张720P的图片,让视觉理解类大模型价格步入“厘时代”。

在本次大会中,火山引擎除了推出视觉理解模型之外,还发布、升级了多个其他模型。

豆包通用模型pro完成新版本迭代:综合任务处理能力较5月份提升32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上提升43%,在专业知识领域能力提升54%。

豆包·音乐模型4.0发布:从 “高光片段” 走向 “完整歌曲”,支持包括前奏、主歌、副歌、间奏、过渡段的3分钟全曲创作;歌词局部修改,仍能适配原有旋律;全曲风格、情感和音乐逻辑保持一致,曲风连贯。

豆包·文生图模型2.1发布:支持“一键P图”,可以高精度指令理解,对中英文、专有名词“来者不拒”;高质量编辑效果,聚焦目标,不“误伤”原图;可实现多元风格,美观自然。支持“一键海报”,中文精准生成;图文精妙融合,字体与图片内容融合;快速海报生成,模型最快6秒出图。

veOmniverse+豆包·3D生成模型发布:veOmniverse支持高保真视觉渲染、大规模渲染算力池、物理&传感精确模拟、即开即用的3D编辑器。豆包·3D生成模型,支持文生3D、图生3D及多模态生成,1min生成高保真、高质量3D资产,复杂物品、物品组合大规模场景生成,支持多模态3D资产编辑。

豆包·视频生成模型将在2025年1月正式对外开放服务,用户可在火山引擎官网预约正式服务。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1