VividTalk :仅需一张照片与一段音频,即可创造逼真动态视频!

VividTalk技术概览

联合研发:

VividTalk是由南京大学、阿里巴巴、字节跳动和南开大学共同开发的AI视频生成框架。

技术特点:

仅使用一张照片和一段音频即可生成高质量的逼真说话视频。
视频具有高视觉质量,面部表情逼真,头部姿势多样。
嘴唇同步显著提升,增强了视频的真实感和动态性。

多风格与多语言支持:

框架支持多种图像风格,包括照片和卡通图片等,同时支持多语言,使照片中的人物能够以不同的语言“说话”。

工作原理:

音频到网格映射(第一阶段):
将音频映射到3D网格上,学习非刚性表情运动和刚性头部运动。
使用混合形状(blendshape)和顶点偏移来最大化模型的表示能力,其中混合形状提供全局粗略运动,顶点偏移描述细致的嘴唇运动。
提出新颖的可学习的头部姿势代码本,采用两阶段训练机制实现自然头部运动。

网格到视频转换(第二阶段):

利用双分支运动-VAE(变分自编码器)和生成器将3D网格运动转换为2D密集运动。
基于这些运动逐帧合成高质量的视频,确保视频与输入音频高度同步。

技术成果:

VividTalk能够生成与输入音频高度同步的逼真说话头像视频,极大提升了视频的真实感和动态性。

【项目和演示地址】:https://humanaigc.github.io/vivid-talk/?ref=aihub.cn

【论文地址】:http://arxiv.org/pdf/2312.01841

【Github 官方地址】:(登录后即可查看)

部分网址有网络限制无法打开(你懂的),请自行寻找解决方式。

此内容查看价格为2积分立即购买(VIP免费)
积分奖励:邀请注册1积分,新用户1积分,签到奖励0.5积分

发表评论

error: Content is protected !!