当前位置:首页|资讯|腾讯|百度|华为|科大讯飞

万字梳理:阿里、腾讯等 8 家中国互联网大厂的 50 款大模型及应用,能否全面超越 GPT-4?

作者:砍柴网发布时间:2024-03-13

原标题:万字梳理:阿里、腾讯等 8 家中国互联网大厂的 50 款大模型及应用,能否全面超越 GPT-4?

自美国OpenAI公司推出的ChatGPT风靡全球,并引发新一轮人工智能浪潮,国内外科技巨头争相布局大模型领域。

此次,钛媒体AGI梳理了2023年至今,阿里、百度、字节、腾讯、华为、小红书、美图、科大讯飞、三六零8家互联网科技公司在 AI 领域的最新技术成果,共计包含50款AI大模型及AI应用,以帮助读者快速了解互联网大厂在AI领域的最新技术动向。

阿里巴巴

2024年3月

中国版"Sora",文生视频框架——AtomoVideo

产品介绍:AtomoVideo是阿里巴巴推出的一个高保真图像视频生成框架,该框架利用高质量的数据集和训练策略,保持了时间性、运动强度、一致性和稳定性,并具有高灵活性,可应用于长序列视频预测任务。

因与OpenAI此前推出的文生视频模型Sora功能相似,AtomoVideo也被称为中国版"Sora"。

产品功能:用户只需上传一张照片就能生成对应的视频。据悉AtomoVideo的核心在于多粒度图像注入技术,这一技术使得生成的视频对于给定的图像具有更高的保真度,能够更好地保留原始图像的细节和特征,从而使得生成的视频更加逼真。

另外,AtomoVideo的架构也具有很高的灵活性,它可以灵活地扩展到视频帧预测任务,通过迭代生成实现长序列预测,使得AtomoVideo在处理长序列的视频预测任务时,也能够保持良好的性能。

目前,阿里只发布了AtomoVideo的论文,代码,试玩页面还未公布。

适用人群或场景:视频创作者、影视拍摄

论文地址:https://arxiv.org/abs/2403.01800

电商人的AIGC创作平台——绘蛙

产品介绍:绘蛙是阿里AI电商团队针对淘宝、电商达人推出的一款可以生成文案和图片的智能创作平台,旨在提升电商营销效率。

产品功能:主要是AI文案生成和AI图片生成。在AI文案中,商家可以实现单商品种草、小红书爆文改写、穿搭分享等。以爆文改写为例,商家只需输入参考笔记内容,然后添加种草商品卖点、人设、笔记话题,即可生成小红书风格文案。

AI生图中,用户可以通过选择商品、选择模特和选择参考图生成自己想要的商品图片,支持自己上传模特图,也有自带的数字模特库可供使用,可以定制专属自己的AI模特,帮助商家节省商品拍摄和模特成本。

适用人群:淘宝、天猫店家、带货主播、电商达人

上线时间:未知

体验地址:https://www.ihuiwa.com/(需邀请码)

AI图片-音频-视频模型——EMO

产品介绍:EMO是阿里巴巴推出的AI图片-音频-视频模型,该模型采用了StableDiffusion的生成能力和Audio2Video扩散模型,能够生成富有表现力的人像视频。

不同于OpenAI的文生视频模型Sora,EMO主攻的是直接以图+音频生成视频方向,能够直接从给定的图像和音频,剪辑生成一段带有丰富人物表情的人物头部视频。

产品功能:用户只需要上传一张照片和一段任意音频,EMO就可以根据图片和音频生成一段会说话唱歌的AI视频。视频中人物具备丰富流畅的面部表情,能做到人物开口说话和唱歌时和和音频保持一致,最长时间可达1分30秒左右。

比如,你可以上传一张高启强的照片+一段罗翔老师的音频,就能得到一段"高启强普法"视频。或者,你可以上传一张蒙娜丽莎的照片,让蒙娜丽莎给你唱现代歌曲,唱rap等。

适用人群:有演讲需求人群、电商主播、视频自媒体及讲师等

GitHub:https://github.com/HumanAIGC/EMO

论文地址:https://arxiv.org/abs/2402.17485

项目主页:https://humanaigc.github.io/emote-portrait-alive/

2024年1月

性能堪比GeminiUltra的多模态大模型——Qwen-VL-Max

产品介绍:Qwen-VL是阿里推出的开源多模态视觉模型,2024年1月,继Plus版本之后,阿里又推出了Qwen-VL-Max版本。

产品功能:基础能力方面,Qwen-VL-Max能够准确描述和识别图片信息,并根据图片进行信息推理和扩展创作。这一特性使得该模型在多个权威测评中表现出色,整体性能堪比GPT-4V和GeminiUltra。

视觉推理方面,Qwen-VL-Max可以理解并分析复杂的图片信息,包括识人、答题、创作和写代码等任务。同时该模型还具备视觉定位功能,可根据画面指定区域进行问答。

此外,Qwen-VL-Max在图像文本处理方面也取得了显著进步,中英文文本识别能力显著提高,支持百万像素以上的高清分辨率图和极端宽高比的图像,不仅能完整复现密集文本,还能从表格和文档中提取信息。

体验地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max

AI生成3D动画工具——Motionshop

产品介绍:Motionshop是阿里巴巴智能计算研究院推出的一个AI角色动画框架,该框架利用视频处理、角色检测/分割/追踪、姿态分析、模型提取和动画渲染等多种技术,使得动态视频中的主角能够轻松跨越现实与虚拟的界限,一键变身为3D角色模型且不改变视频中的其他场景和人物。

产品功能:用户只需上传视频,AI便能智能识别视频中的主要人物,并将其无缝转换为生动的3D角色模型。同时保持视频中人物动作同步与真实感,能精确复刻原视频中人物的动作细节,确保3D角色的动作流畅自然,提供高度逼真的视觉效果。此外,Motionshop能将现实世界的人物与3D虚拟角色得以完美融合,创造出跨越现实与虚拟界限的全新体验,为视频内容增添无限可能。

适用人群或场景:视频内容生产者、影视拍摄

项目主页:https://aigc3d.github.io/motionshop/

体验地址:https://www.modelscope.cn/studios/Damo_XR_Lab/motionshop/summary

能让图片开口说话、唱歌的模型框架——DreamTalk

产品介绍:DreamTalk是由清华大学、阿里巴巴和华中科大共同开发的一个可以让人物照片开口说话、唱歌的模型框架。

产品功能:上传一张照片和音频,DreamTalk能够生成人物脸部动作看起来很真实的高质量视频,而且嘴唇动作能和音频都能一一对应。同时DreamTalk还支持多种语言,无论是中文、英文还是其他语言都能很好地同步。

据悉,DreamTalk由三个关键组件组成:降噪网络、风格感知唇部专家和风格预测器。通过三项技术结合的方式,DreamTalk能够生成具有多种说话风格的逼真说话面孔,并实现准确的嘴唇动作。

适用人群或场景:演讲、产品讲解、开会,直播、电商、线上授课等

项目主页:https://dreamtalk-project.github.io/

论文地址:https://arxiv.org/pdf/2312.09767.pdfGithub

地址:https://github.com/ali-vilab/dreamtalk

2023年12月

可控视频生成框架——DreamMoving

产品介绍:DreaMoving是一种基于扩散模型打造的可控视频生成框架,通过图文就能制作高质量人类跳舞视频。

产品功能:用户只需上传一张人像,以及一段提示词,就能生成对应的视频,而且改变提示词,生成的人物的背景和身上的衣服也会跟着变化。简单来说就是,一张图、一句话就能让任何人或角色在任何场景里跳舞。

适用人群或场景:娱乐主播、视频制作

论文链接:https://arxiv.org/pdf/2311.17117.pdf

项目地址:https://humanaigc.github.io/animate-anyone/

体验地址:https://huggingface.co/spaces/xunsong/Moore-AnimateAnyone

2023年11月

文生视频模型——I2VGen-XL

产品介绍:I2VGen-XL是阿里云推出的一款高清图像生成视频模型,这款模型的核心组件由两个部分构成,用以解决语义一致性和清晰度问题。

产品功能:用户只需上传一张图片,即可生成一段分辨率为1280*720的高清视频。由于在大规模混合视频和图像数据上进行了预训练,并在少量高质量数据集上进行了微调,这些数据集具有广泛的分布和多样的类别,这使得I2VGen-XL展示了良好的泛化能力,适用于不同类型的数据。

此外,为了提高视频质量,该研究训练了一个单独的VLDM,专门处理高质量、高分辨率数据,并对第一阶段生成的视频采用SDEdit引入的噪声去噪过程。

视频生成效果方面,与Gen2、Pika生成效果相比,I2VGen-XL生成的视频动作更加丰富,主要表现在更真实、更多样的动作,而Gen-2和Pika生成的视频似乎更接近静态。

使用人群及场景:视频内容创作者、影视制作

项目地址:https://i2vgen-xl.github.io/

论文地址:https://arxiv.org/abs/2311.04145

Github:https://arxiv.org/abs/2311.04145

开源的图像到视频动画合成框架——AnimateAnyone

产品介绍:AnimateAnyone是一款能将静态图像转换为角色视频的模型框架。该框架在扩散模型的基础之上,引入了ReferenceNet、PoseGuider姿态引导器和时序生成模块等技术,以实现照片动起来时保持一致性、可控性和稳定性,输出高质量的动态化视频。

产品功能:角色视频生成,利用驱动信号从静态图像生成逼真的角色视频;扩散模型支持,借助扩散模型的力量,提供高质量的动画效果;ReferenceNet设计,通过空间注意力合并详细特征,保持外观特征的一致性;姿势指导器,引入高效的姿势指导器,确保角色动作的可控性和连续性;平滑过渡:采用有效的时间建模方法,保证视频帧之间的平滑过渡。

目前,AnimateAnyone已在GitHub上斩获了近1.3万个星标,并在国内外引起了热烈讨论。

适用人群或场景:时尚行业,展示服装、造型;视频内容创作者、电商、舞者

项目链接:https://humanaigc.github.io/animate-anyone/

2023年4-7月

通义系列大模型——通义千问、通义万相和通义听悟

产品介绍:通义千问是阿里自研的 AI大语言模型,可以帮助用户解决生活和工作中的问题,提供智能问答服务。2023年10月31日,通义千问2.0正式发布,阿里也随之推出通义千问App。相较于1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。

通义万相是阿里通义大模型家族中的一款AI绘画大模型,可辅助人类进行图片创作。基于阿里研发的组合式生成模型Composer,通义万相提出了基于扩散模型的「组合式生成」框架,通过对配色、布局、风格等图像设计元素进行拆解和组合,提供了高度可控性和极大自由度的图像生成效果。

通义听悟是是依托通义千问大模型和音视频AI模型的AI助手,旨在帮助用户及客户在泛音视频内容场景下提升信息生产、整理、挖掘、洞察效率。

产品功能:通义千问具备多轮对话、文案创作、逻辑推理、多模态理解及多语言支持等功能。用户可以就任何问题与其对话互动,比如可以问他生活类常识、讲故事、写作文或文案、解答数学题等,但通义千问不具备多模态能力,不具备图像生成功能。

通义万相主要功能有三个,即文生图、相似图生成和风格迁移。在基础文生图功能中,可根据用户提示词生成水彩、扁平插画、二次元、油画、3D卡通画等风格图像;相似图片生成功能中,用户上传任意图片后,即可进行创意发散,生成内容、风格相似的AI画作。此外该模型还支持图像风格迁移,用户上传原图和风格图,可自动把原图处理为指定的风格图。

通义听悟融合融合了十多项AI功能,面向线上线下各种泛音视频场景,通义听悟可以提供音视频内容的实时字幕/转写、多语言翻译、内容理解/摘要,涵盖全文概要、章节速览、发言总结等高阶AI功能。

适用人群或场景:通义千问适用人群较为广泛,通义万相适用于艺术绘画创作,设计师、动漫爱好者;通义听悟可应用于智能客服、智能家居、智能音箱、智能穿戴设备等领域。

通义千问体验地址:https://tongyi.aliyun.com/qianwen/

通义万相体验地址:https://tongyi.aliyun.com/wanxiang/

通义听悟体验地址:https://tingwu.aliyun.com/home

百度

2024年1月

统一模态视频生成系统——UniVG

产品介绍:UniVG是百度推出的一款统一模态视频生成系统,其独特之处在于针对高自由度和低自由度两种任务采用不同的生成方式,以更好地平衡两者之间的关系。

产品功能:用户只需提供一张图片或一段文字,就能生成一段流畅的视频,与早期的AI视频生成工具相比,UniVG所生成的每一帧画面都更加稳定、连贯。

据悉,UniVG系统引入了"多条件交叉注意力"技术,用于高自由度视频生成,以生成与输入图像或文本语义一致的视频。而在低自由度视频生成方面,采用了"偏置高斯噪声"的方法,相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

适用人群及场景:视频内容创作者

项目地址:https://top.aibase.com/tool/univg

项目演示页面: https://univg-baidu.github.io/

统一图像生成框架——UNIMO-G

产品介绍:百度推出的UNIMO-G统一图像生成框架,通过多模态条件扩散实现文本到图像生成,克服了文本描述简洁性对生成复杂节图像的挑战。

产品功能:用户只要给出一张图,然后给出各种提示词,UNIMO-G就能根据提示词在图像基础上按照提示生成对应图像,比如上传一张马斯克图像,输入提示词给他穿上警服,就能得到一张身穿警服的马斯克图像。

据了解,UNIMO-G的核心组件包括多模态大语言模型和基于编码的多模态输入生成图像的条件去噪扩散网络。这一框架还采用了精心设计的数据处理管道,涉及语言基础和图像分割,用以构建多模态提示。

在测试中,UNIMO-G在文本到图像生成和零样本主题驱动合成方面表现卓越,特别是在处理包含多个图像实体的复杂多模态提示时,生成高保真图像的效果显著。

适用人群及场景:艺术创作者、漫画爱好者、摄影师

项目地址:https://top.aibase.com/tool/unimo-g

论文地址:https://arxiv.org/pdf/2401.13388.pdf

2023年3月

文心大模型系列产品——文心一言、文心一格和文心千帆

产品介绍:文心大模型是百度于2019年推出的自然语言处理大模型。该模型基于ERNIE系列模型具备跨模态、跨语言的深度语义理解与生成能力。2023年10月,文心大模型4.0版本发布,实现基础模型的全面升级,理解、生成、逻辑、记忆四大能力显著提升,综合能力可直接对标GPT-4。

文心一言是百度基于文心大模型打造的生成式AI产品,与阿里的"通义千问"类似,可以进行任何内容的问答对话,可作为生活中的智能小助手。

文心一格是百度基于文心大模型推出的AI艺术创作平台,可以生成多样化AI创意图片,辅助创意设计。

文心千帆是百度旗下企业级大模型生产平台,提供包括文心一言在内的大模型服务及第三方大模型服务,还提供大模型开发和应用的整套工具链。

产品功能:文心一言具有文学创作、商业文案创作、数理逻辑推算、中文理解、音频、图像生成等多模态生成能力。比如用户可以用文心一言解答任何生活及工作问题,帮助用户撰写任何领域的文案,解答数学逻辑题,用语音讲故事等。

文心一格的主要功能就是图像生成功能。用户只需要输入一句话或提示词,文心一格就能按照指示自动生成图像,且用户可以追加更详细的提示词对图像进一步优化或改变图像风格等。同时文心一格还具有二次编辑图片和图片叠加功能,比如可以涂抹掉图像中不满意的部分,让模型重新调整生成。或者给出两张图片,模型会自动生成一张叠加后的创意图。此外,文心一格还推出了海报创作、图片扩展和提升图片清晰度等功能,提供多种生图服务满足用户需求。

文心千帆主要功能有两个:其一是文心千帆以文心一言为核心,为企业提供大模型服务,帮助客户改造产品和生产流程。其二,作为一个大模型生产平台,企业可以在文心千帆上基于任何开源或闭源的大模型,开发自己的专属大模型。

适用人群及场景:文心一言受众群体广泛,文心一格适合有绘画创作和图像设计需求群体。文心千帆主要面向企业级B端客户。

体验地址:

文心一言:https://yiyan.baidu.com/

文心一格:https://yige.baidu.com/creation

文心千帆:https://cloud.baidu.com/product/wenxinworkshop

字节跳动

2024年2月

字节版DALL·E文生图模型——SDXL-Lightning

产品介绍:SDXL-Lightning是一款由字节跳动开发的开源免费的文生图模型,能根据文本快速生成相应的高分辨率图像。

产品功能:用户在SDXL-Lightning上输入提示词,然后选择推理步骤(选择范围为1步—8步),等待数秒即可生成一张高清图像。

与以往的文生图模型相比,SDXL-Lightning的生成速度有显著提高,能够在最少步骤内完成文本到1024px分辨率图像的生成,适用于需要快速响应的应用场景。

SDXL-Lightning的生成速度之所以能够显著提升,主要是因为它通过结合渐进式蒸馏和对抗式蒸馏的方法,解决了扩散模型在生成过程中存在的速度慢和计算成本高的问题,同时保持生成图像的高质量和多样性,避免了传统蒸馏方法中存在的图像模糊问题。

使用SDXL-Lightning模型,可在几秒钟之内生成高达1024像素分辨率的图像。目前,该模型已经在HuggingFace平台上开源,并且下载量超过2200次,登上了HuggingFace流行趋势第三名,超越了gemma-2b,仅次于最新的谷歌gemma-7b,以及stabilityai/stable-cascade。

适用人群或场景:视频内容创作者、影视制作

体验地址:https://huggingface.co/spaces/AP123/SDXL-Lightning

文生视频模型——Boximator

产品介绍:Boximator是字节跳动推出的一款文生视频模型。与Gen-2、Pink1.0等模型不同的是,Boximator可以通过文本精准控制生成视频中人物或物体的动作。

产品功能:与OpenAI发布的文生视频模型类似,Boximator也是通过用户给出文字描述或提示,就能按照指示生成对应的视频。据了解,为了实现对视频中物体、人物的动作控制,Boximator使用了"软框"和"硬框"两种约束方法。

硬框可精确定义目标对象的边界框。用户可以在图片中画出感兴趣的对象,Boximator会将其视为硬框约束,在之后的帧中精准定位该对象的位置。

软框定义一个对象可能存在的区域,形成一个宽松的边界框。对象需要停留在这个区域内,但位置可以有一定变化,实现适度的随机性。

两类框都包含目标对象的ID,用于在不同帧中跟踪同一对象。此外,框还包含坐标、类型等信息的编码。

不过,据字节跳动相关人士称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

适用人群或场景:短视频创作者、影视制作

论文地址:https://arxiv.org/abs/2402.01566

项目地址:https://boximator.github.io/

文生图AIGC工具——Dreamina

产品介绍:Dreamina是字节跳动旗下的AIGC工具,可以根据用户的文字提示生成创意图片。

产品功能:用户只需输入一段文字,Dreamina即可生成四幅由AI生成的创意图像。同时Dreamina支持多种图像风格,包括抽象、写实等,以满足不同用户的审美需求。此外,Dreamina还具备图像调整功能,用户可以对生成的图片进行修整,包括调整图片的大小比例和选择不同的模板类型。这种灵活性使得用户可以根据个人喜好或特定需求调整生成的图像。

适用人群或场景:艺术创作者、漫画爱好者

体验地址:https://dreamina.jianying.com/ai-tool/platform

AI开发平台——Coze扣子

产品介绍:Coze扣子是字节跳动AI部门Flow开发的一站式AI开发平台,无论用户是否有编程基础,都可以利用Coze在30秒内轻松创建专属自己的"AI机器人"。

产品功能:在注册、登陆账号之后,用户可以通过首页超过60个的插件能力,以及创建Bot,实现多个能力应用。例如,我们希望有一个"新闻搜索助手",通过简单的对话在30秒内就可以自动生成一个AI机器人,不需要任何代码编程,小白也能轻松上手。

同时,"扣子"平台也有一些自带的bot,涵盖旅游、出行和娱乐等场景,可以直接点击使用,而且还具备可无限扩展的能力集,全面实现个性化定义AI机器人技术能力。

此外,coze还支持上传创建自己所需bot的数据,可以与自己的数据进行交互,并且扣子还具备长期的对话记忆能力,通过数据交互和持久记忆为用户提供更加精准的回答。

适用人群或场景:所有用户都可适用

体验地址:https://www.cozecn/store/bot

2024年1月

AI视频生成模型——MagicVideo-V2

产品介绍:MagicVideo-V2是字节推出的AI视频生成模型,它将文本到图像模型、视频运动发生器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。这种结构使MagicVideo-V2能够制作高分辨率、美观的视频,并具有出色的保真度和流畅度。

产品功能:文本转图像功能,MagicVideo-V2拥有先进的文本到图像模型,可以将文字转换为图像元素,为生成视频提供基础素材;视频运动生成功能:利用视频运动生成器,可以自动生成视频,节省用户的时间和精力;参考图像嵌入功能,MagicVideo-V2支持参考图像嵌入功能,在生成视频时可以参考指定图像,使视频内容更加准确和多样化。此外,MagicVideo-V2的帧插值模块能够平滑过渡视频中的每一帧,使生成的视频更加流畅和连贯。

适用人群或场景:电影制作、创意广告视频、创意短片

论文地址:https://arxiv.org/abs/2401.04468

项目网站:https://magicvideov2.github.io

2023年12月

AI剧情互动平台——BagelBell

产品介绍:BagelBell是字节推出的一款AI剧情互动平台,用户可以通过AI身份图、故事名称和故事介绍了解不同的AI故事并与自己喜欢的故事互动。

产品功能:BageBel为用户提供了一个充满活力和创造力的虚拟世界,让用户可以在这个世界中探索故事、创作角色,并与AI角色进行互动。这种独特的体验不仅可以让用户享受到故事带来的乐趣,还可以激发用户的创造力和想象力。目前BagelBell故事类型十分丰富,涉及狼人、校园、悬疑、霸总、女仆、年下等多个类别,不过多为恋爱题材。

适用群体或场景:剧本创作、游戏创作

体验地址:https://www.anybagel.com/

2023年11月

字节海外版AI智能助手——ChitChop

产品介绍:ChitChop是字节跳动在海外推出的AI智能助手,可以为用户提供多达200+的智能机器人服务,通过提供创造性灵感、提高工作效率等方式辅助用户的工作和生活。

产品功能:首先ChitChop具有丰富的应用场景,提供AI创作、AI绘图、娱乐休闲、学习提升、工作提效、生活助手六大场景的AI小工具,为用户提供创造性灵感,提高工作效率。

其次,输入简单输入提示即可互动,只需输入几个简单的提示词,你就可以把你的想法变成艺术图像或者与A!进行交流互动。

再次,文件智能分析和总结功能,添加上传一个文件,即可分析、总结和对文件内容发起讨论,帮助用户高效地学习和分析内容。

最后是实时互联网搜索功能,可以与人工智能交互进行搜索。此外,还内置200多个智能机器人,可帮助用户提高创造力,学习新话题,甚至与人工智能虚拟角色玩游戏。

适用人群或场景:海外用户均适用

体验地址:https://www.chitchop.com/tool

2023年8月

AI智能聊天助手——豆包和Cici

产品介绍:豆包和Cici都是字节跳动基于云雀模型开发的AI智能聊天助手,可以回答各种问题并进行对话,帮助用户获取信息,只不过豆包是针对国内用户开放的,Cici是豆包的海外版本。

产品功能:豆包和Cici的功能一致,提供问答、智能创作、聊天等服务。进入豆包/Cici官网首页登陆后,用户可直接与豆包/Cici对话,比如可以让豆包帮助写爆款文案、生成图片、英语翻译等。豆包/Cici还支持创建专属的智能助手,比如可以定制自己的智能导游,可以帮助自己做旅游形成规划,提供更多包含交通、景点及美食的旅游相关的信息。此外,豆包/Cici还有具备很多现成的AI智能体可供使用,涉及生活、娱乐、写作、情感和游戏多领域。

适用人群或场景:所有C端用户均适用

体验地址:https://www.doubao.com/chat/bot/discover

https://www.ciciai.com/

字节跳动大语言模型——云雀

产品介绍:云雀是字节跳动自研的大语言模型,该模型采用Transformer架构,能够通过便捷的自然语言交互,高效完成互动对话、信息获取、协助创作等任务。

产品功能:内容创作功能,可以根据用户指令进行内容创作,生成文案大纲及广告、营销文案等;智能问答功能,用户可以通过云雀快速获取生活常识、工作技能,助力高效解决工作、生活等各类场景中的问题;逻辑推理能力,可进行思维、常识、科学推理 通过分析问题的前提条件和假设来推理出答案或解决方案,给出新的想法和见解;代码生成 功能,作为大语言模型,云雀具备代码生成能力和知识储备,可高效的辅助代码生产场景;信息提取能力,云雀可以深入理解文本信息之间的逻辑关系,从非结构化的文本信息中抽取所需的结构化信息。

体验地址:https://www.volcengine.com/contact/yunque

多模态大模型——BuboGPT

产品介绍:BuboGPT是字节研发的一款多模态大模型,通过整合文本、图像和音频输入,可以执行跨模态交互并做到对多模态的细粒度理解。

产品功能:首先是多模态理解能力,BuboGPT实现了文本、视觉和音频的联合多模态理解和对话功能;其次是视觉对接能力,BuboGPT能够将文本与图像中的特定部分进行准确关联,实现细粒度的视觉对接;再次是音频理解能力,BuboGPT能够准确描述音频片段中的各个声音部分,即使对人类来说一些音频片段过于短暂难以察觉;最后是对齐和非对齐理解能力;BuboGPT能够处理匹配的音频-图像对,实现完美的对齐理解,并能对任意音频-图像对进行高质量的响应。

项目地址:https://bubo-gpt.github.io/

论文地址:https://arxiv.org/abs/2307.08581

腾讯

2024年1月

多模态音乐生成模型——M2UGen

产品介绍:M2UGen是一款多模态音乐生成模型,融合了音乐理解和多模态音乐生成任务,旨在助力用户进行音乐艺术创作。

产品功能:M2UGen具备音乐理解和生成能力,不仅可以从文字生成音乐,它还支持图像、视频和音频生成音乐,还可以编辑生成的音乐。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1