当前位置:首页|资讯

信息港小镇企业一知智能 让照片“活”起来

作者:新报观察发布时间:2024-09-04

最近,信息港小镇企业杭州一知智能科技有限公司自研的通用说话人合成技术上线,能让静态照片“开口说话”。

什么是通用说话人合成技术?这是一种基于智能算法的图像处理技术,它能根据语音直接驱动静态照片中人物头部和面部自然动作,不需要定制训练,即可生成人物流畅说话的视频效果。

也就是说,仅需一张图片,一段音频,就能让图片中的人物“活”起来。

那么,通用说话人合成技术是如何做到的?一知智能相关负责人介绍,首先,在语音特征方面,采用基于Transformer的语音特征聚合模型,来提取每一帧画面对应的语音特征。同时,通过motion extractor提取头部姿态和表情偏移量,在实际使用中可以用模板库中丰富的头部姿态序列进行驱动,“这样子,我们就将关键点、语音特征、运动信息和图片特征通过聚合模型进行了融合,并利用扩散模型重建了头部图像。想象一下,你只需上传一张自己满意的照片和一段音频,就能得到一个动态的你,是不是很有趣?”

值得一提的是,基于过去为众多电商品牌拍摄的定制或公用模特,一知智能构建了丰富的头面部动作与表情模型库,这使得通用说话人合成技术能够创造出自然又真实的多样化面部表情与动作,精准匹配声音与细腻表情变化。

实际上,这项技术的突破,不仅仅使一知智能在通用式唇音匹配效果上处于业界领先地位,更极大降低了数字人制作的经济与时间成本,“我们摒弃了前期对摄影棚拍摄和专业化妆师团队的依赖,仅凭单图就可驱动出高真实度、高可控性、高表现力的数字人,与定制化数字人模型所差无几。”

一直以来,一知智能不断探索AI多模态人机交互的新边界,致力于将AI深度融入业务场景。该技术提升了数字人制作的灵活性与效率,也为一知的业务拓展开辟了新视野,带来更多可能性。(周珂 冯佳程)


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1