AI魔法学院客服
AI视频新技能!这套流程教你打造视频人物和声音完美同步!
AI视频新技能!这套流程教你打造视频人物和声音完美同步!
 2024-01-16
收藏 复制地址分享海报

这个视频中人物的身体姿势、头发、头部姿势、面部表情都在发生运动,看了上面的视频后,群里一位朋友问如何实现视频中的人物口型与音频的完美同步,以及当前可行的方法。原文主要介绍的是Midjourney的内容,所以没有详细谈及这个问题,本文将就这个问题展开讨论。

目前,在AI生成视频这个环节,已经发展的越来越快,各种技术也越来越成熟,从文字直接生成视频已经可以快速实现下面这样有复杂场景的视频,再结合更完善的故事脚本、对话,更复杂的视频效果都是可以畅想的。

但目前的AI视频尚未解决视频和音频结合的问题,让人物的嘴与音频完美同步仍然具有挑战性。实现此目标需要后期处理来混合音频和视频,使它们协同工作。目前有几种解决方案,包括D-IDHeyGenWav2Lip

D-ID:https://studio.d-id.com/

IMG_256

HeyGen:https://app.heygen.com/home

IMG_257

如果你只需从单张图片生成与音频同步的视频,且对人物动作没有太多特殊要求,那么D-IDHeygen是两种可行的选择。D-ID是目前网络上最常用的方法之一,功能也比较单一,只需上传一张图片,输入文字和选择音色,即可生成相应的视频。

HeyGen功能更加强大,效果更为出色,适用范围更广泛,且对图片尺寸和比例的要求不那么苛刻。对于免费用户,HeyGen会定期赠送试用点数,以便生成更多的视频,总时长可达1分钟。该工具不仅生成嘴部运动的视频,还在头部区域呈现出匹配的变化,包括眼睛、头发和口腔细节,清晰度也非常高。

然而,HeyGen的限制在于只能使用系统提供的声音角色。如果你想使用自己的声音或其他特定的声音,需要按照之前文章史上最强!五分钟创建你的数字分身!新版HeyGen 2.0快速上手教程!中介绍的方法来训练自定义角色。但每位免费用户只能训练一个角色,如果需要多个演员的声音,免费版将无法满足需求。这时,我们建议考虑使用第三种方法:Wav2Lip

Wav2Lip是一种神经网络,可以根据语音输入实现视频中人物嘴部的准确同步。它适用于任何身份、声音和语言的视频,甚至可以用于CGI人脸和合成声音。该技术的原理是使用口型专家网络来预测每一帧的口型,然后通过生成对抗网络来提高视频的视觉质量。其主要优点在于实现高精度、低延迟和无需人工标记的视频口型同步。

这项技术早已问世,有两个版本:高精度的口型同步模型Wav2Lip和视觉质量更佳的生成对抗模型Wav2Lip_GAN。它可以以多种方式使用,包括本地安装、Stable Diffusion插件、Colab版以及在线演示版。

在线Demo

http://bhaasha.iiit.ac.in/lipsync/

https://lip.aifilm.tech/#/

IMG_258

推荐使用第二种在线版,只需准备一个包含人脸的视频和一个包含语音的音频,上传后即可快速合成。演示版的缺点是合成的视频分辨率较低,下面这个视频是演示版的效果:

想要更高分辨率可以使用Colab版:https://colab.research.google.com/github/eyaler/avatars4all/blob/master/melaflefon.ipynb

还可以使用针对Stable Diffusion的插件:

https://github.com/numz/sd-wav2lip-uhq/blob/main/README_CN.md

上面的网址有详细的安装和使用教程,我这里就不多做介绍了。这些方法使用过程都不复杂,但对于有较大幅度运动的视频,如果想最终的效果更好一些,我们还需要对原视频和生成的说话视频进行叠加合成。可以使用剪映软件,如下图所示给说话视频增加一个遮罩,只保留嘴部的内容,其他内容使用下层的原始视频。

IMG_259

视频放大

合成后的视频如果还想提高分辨率,推荐使用剪映的海外版,也就是Capcut.com网站的视频放大功能。

网址:https://www.capcut.com/magic-tools?from_page=work_space

IMG_260

第二行第四个就是视频放大功能,直接上传视频,选择新的分辨率,即可快速完成视频放大。以上就是大致的完整流畅,由于涉及多个环节和软件,过程有些繁琐。

展望下个阶段的AI视频技术发展,一定会出现新的解决方法,也就是在视频生成界面,直接输入文字,选择音色,AI即可生成有完整配音的视频。相信这个时间也不会太久。大家可以继续关注这方面的进展。想更快掌握最新AI技术的应用,欢迎加入我的公众号专栏《AIGC从入门到精通专栏》,及时获取最新技术和教程

出自:https://mp.weixin.qq.com/s/gPINGZ25rH7XVjZ7_PVCJw

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
小黑屋2024/1/16 11:38:24
文章很实用,提供了实现视频中人物口型与音频完美同步的方法,介绍了D-ID、HeyGen和Wav2Lip三种解决方案,其中Wav2Lip最先进。文章还提到了如何使用剪映软件进行视频合成和放大,对未来AI视频技术的发展也进行了展望。总之,文章值得一读。
20秒读懂全文
伴读
# 1.一句话总结文章摘要

本文介绍了如何实现视频中人物口型与音频的完美同步,以及当前可行的解决方案,包括D-ID、HeyGen和Wav2Lip等工具。

# 2.关键词和可能相关的关键词

关键词:AI生成视频、音频与视频结合、D-ID、HeyGen、Wav2Lip、高精度口型同步

可能相关的关键词:AI技术、视频制作、音频处理、神经网络、生成对抗网络、在
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群