[wideo]https://aiappku.com/wp-content/uploads/2024/05/VividTalk-:仅需一张照片与一段音频,即可创造逼真动态视频!.mp4[/wideo]
VividTalk技术概览
联合研发:
VividTalk是由南京大学、阿里巴巴、字节跳动和南开大学共同开发的AI视频生成框架。
技术特点:
仅使用一张照片和一段音频即可生成高质量的逼真说话视频。
视频具有高视觉质量,面部表情逼真,头部姿势多样。
嘴唇同步显著提升,增强了视频的真实感和动态性。
多风格与多语言支持:
框架支持多种图像风格,包括照片和卡通图片等,同时支持多语言,使照片中的人物能够以不同的语言“说话”。
工作原理:
音频到网格映射(第一阶段):
将音频映射到3D网格上,学习非刚性表情运动和刚性头部运动。
使用混合形状(blendshape)和顶点偏移来最大化模型的表示能力,其中混合形状提供全局粗略运动,顶点偏移描述细致的嘴唇运动。
提出新颖的可学习的头部姿势代码本,采用两阶段训练机制实现自然头部运动。
网格到视频转换(第二阶段):
利用双分支运动-VAE(变分自编码器)和生成器将3D网格运动转换为2D密集运动。
基于这些运动逐帧合成高质量的视频,确保视频与输入音频高度同步。
技术成果:
VividTalk能够生成与输入音频高度同步的逼真说话头像视频,极大提升了视频的真实感和动态性。
【项目和演示地址】:https://humanaigc.github.io/vivid-talk/?ref=aihub.cn
【论文地址】:http://arxiv.org/pdf/2312.01841
【Github 官方地址】:(登录后即可查看)
部分网址有网络限制无法打开(你懂的),请自行寻找解决方式。
评论0