免费AI“神器”系列第11弹：苹果版ChatGPT超越GPT-4；腾讯版Sora已获3000星｜钛媒体AGI

作者：钛媒体APP发布时间：2024-04-07

苹果腾讯 ChatGPT GPT-4 Sora

近期，生成式人工智能（AIGC）领域又涌现出多款创意十足的新应用。

今天，钛媒体AGI梳理了免费 AI “神器”系列第十一弹，共五款，其中不少产品再一次拓宽了我们对AI的想象力。

让Siri变聪明的“救星”——ReALM
让图像开口说话的腾讯开源版Sora——AniPortrait
医疗护理保健模型——Polaris
视频主体无缝替换——VideoSwap
动画界“神笔马良”——BasicPBC

1、让Siri变聪明的“救星”——ReALM

苹果版ChatGPT来了。

产品信息：ReALM（Real-time Analysis of Live Media）是由苹果公司研究团队开发的一款设备端AI模型，参数量达8亿，某些性能超越了GPT-4，从而理解前后文关系，并且加快反应效率。

苹果 AI 技术将与Google、微软、OpenAI、亚马逊等科技巨头进行抗衡。

产品功能：首先，ReALM目前属一种模型技术，实际产品与GPT类似；其次，ReALM可利用大模型将参考指代问题（包括对话历史中的上下文、用户与设备交互式感知的非对话实体）转换为纯语言建模问题，使模型能够对用户的指令做出正确的响应；再次，ReALM也能用于理解图像中的文字内容，诸如电话号码或食谱资讯，由于ReALM模型参数量小，适合在手机和平板等设备上运行，有望显著提升Siri AI助手技术。

最后，目前暂时无法确认苹果是否会将ReALM AI模型实际用于iPhone、iPad、Mac当中，但苹果先前已经多次暗示将在2024年推出 AI 产品，借此提升产品使用体验，因此预期今年WWDC 2024期间将会有更进一步说明，可能会出现在即将到来的iOS 18和macOS 15中。

论文地址：https://arxiv.org/pdf/2403.20329.pdf

2、让图像开口说话，腾讯开源版Sora来了

继OpenAI、阿里之后，腾讯版Sora也来了。

产品信息：腾讯推开源技术框架AniPortrait，它可以通过一张人脸照片和音频生成一段高质量视频。与此前阿里发布的视频生成模型EMO的功能相似，但AniPortrait可直接开源，用户直接使用即可。

产品功能：AniPortrait可根据输入的音频和图像生成会说话、唱歌的动态视频，并保持人物面部表情流畅、生动且口型一致。同时支持多种语言输入，还可以对面部重绘以及进行头部姿势控制。

据了解，该技术框架的工作原理分为两个步骤：第一步AniPortrait会从音频中提取关键信息，再将音频通过两个简单的处理层转换成一个三维的面部模型，并确定头部姿势。第二步，将三维面部模型和头部姿态转换成一系列二维点，进行识别标注，再使用Stable Diffusion 1.5结合时间运动模块，根据二维标记点序列创建一系列连贯的肖像帧，形成动画，确保动画的流畅性和真实感。

对于AniPortrait目前存在对口型不太流畅自然的问题，腾讯团队称，接下来也会效仿阿里EMO方法，直接从音频来预测肖像视频的生成，以达到更好的效果。

截至目前，AniPortrait已经在GitHub上获得了3000 Stars星星

3、医疗护理保健模型——Polaris

产品信息：Polaris是由AI初创公司Hippocratic AI开发的一款用于医疗保健的大语言模型（LLM）系统，能通过实时对话为患者提供专业医疗咨询和指导，包括药物使用指南、治疗方案以及健康建议等。

产品功能：Polaris能与患者进行长时间、多轮次的自然语音对话，为其提供复杂的医疗咨询和指导，还能分析患者的实验报告和生命体征数据，帮助患者解读检查结果，监控健康状况的变化。此外，Polaris可以根据患者的健康状况和特定医疗需求，提供个性化的饮食和营养建议。

目前，Polaris已经发布了其二代模型——Polaris 2。评估结果显示，Polaris 2在医疗安全、临床准备、患者教育、对话质量等多个维度上与人类护士表现相当，甚至在某些关键维度上超越了人类护士。而在药物管理、实验报告解读能力上，Polaris 2已经超越了GPT-4和LLaMA-2 70B等大模型。

Polaris 2的运行成本也非常具有竞争力，每小时工作成本只需9美元，人类护士每小时工作成本是90美元，Polaris 2仅是其十分之一。

官网地址：https://www.hippocraticai.com/video

4、视频主体无缝替换——VideoSwap

产品信息：VideoSwap是一款由新加坡国立大学和Meta研究团队合作开发的视频编辑模型，支持在不改变视频背景、运动轨迹的前提下替换掉视频主体。

产品功能：在VideoSwap的帮助下，用户仅需一张图片就能替换掉一段动态视频的主角。比如将转头的小猫换成小狗，疾驰的SUV换成超跑等。

VideoSwap的原理是通过使用少量语义点来对齐物体的运动轨迹并改变主体形状，再利用图像扩散模型将视频运动层集成，以确保视频生成结果的时间一致性。

研究团队表示，VideoSwap通过大量测试，最终取得了SOTA（State of the arts）成绩，成为目前最好的视频变换模型。

项目地址：https://videoswap.github.io/

5、 动画界“神笔马良”——BasicPBC

产品信息：BasicPBC是一项由新加坡南洋理工大学S-lab团队开发的动画自动填色AI技术，能自动为动画中的线条图着色，极大地提升了动画制作中的上色工作效率。

产品功能：用户只需要对动画的第一帧进行手动彩色化，BasicPBC就能自动将颜色填充到后续的所有帧。

为了帮助AI更好地理解动画的复杂性，研究团队开发了一个数据集PaintBucket-Character。这个数据集包含了丰富的3D角色渲染线条艺术及其彩色版本，模拟了真实动画制作中的各种细节。在大量实验中，这项自动着色技术显现出了其在人物运动、阴影变化和被遮挡等复杂场景时的优越性。

项目地址：https://github.com/ykdai/BasicPBC

（本文首发钛媒体App，作者｜任颖文，编辑｜林志佳）

免费AI“神器”系列第11弹：苹果版ChatGPT超越GPT-4；腾讯版Sora已获3000星｜钛媒体AGI

推荐体验

相关资讯

免费AI“神器”系列第九弹：“字节版Sora”突然爆火；AI 代码软件走红网络｜钛媒体AGI

免费AI“神器”系列第12弹：腾讯研发出“AI 蔡徐坤”；字节Gauth日下载量增长1400% | 钛媒体AGI

免费 AI “神器”系列第八弹：全球首个 AI 软件工程师Devin来袭；阿里版Sora模型爆火｜钛媒体AGI

免费AI“神器”系列第14弹：Sora竞品可生成2分钟视频；谷歌Vlogger能让图像说话｜钛媒体AGI

免费 AI “神器”系列第三弹：AI 视频领域的“字节跳动”诞生，首个GPT-4V盲测工具发布｜钛媒体AGI

近期资讯

小i机器人(AIXI.US)盘前涨超27% 公司专注于认知智能的自主研发和产业化应用

美国联邦航空管理局对部分波音777飞机发布适航指令

三星预感可折叠手机不好卖？拟增加Galaxy S出货量削减折叠屏手机

微信小窗口聊天功能：提升沟通效率与多任务处理体验

吾空推出“寻梦西游”迷你电脑主机：R7-7840HS准系统 3099 元

云南白药：与华为云盘古大模型签署人工智能药物研发全面合作协议

常润股份获得实用新型专利授权：“一种卧式千斤顶多功能手柄装置”

京东方独供一加 Ace 5 系列手机屏幕

如何顺利进行手机以旧换新，享受科技升级的便利

精测电子获得实用新型专利授权：“一种自动开关门结构及其生产设备”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响