文章列表-AI魔法学院

文章列表

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

它的竞争对手包括语音克隆翻译应用 HeyGen 和Verbalate，以及Spotify和视觉特效工作室Monsters Aliens Robots Zombies等公司推出的新工具

AI

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

字节跳动最近推出了一款名为PersonaTalk的AI模型，这项黑科技让视频配音彻底摆脱了传统的“僵硬感”。

PersonaTalk 视频

基于 OpenAI Whisper 模型的实时语音转文字工具

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】什么是 WhisperLive？

WhisperLive 音频开源软件

视频大模型训练相关词条解释

Sora是OpenAI公司发布的一款AI视频生成模型。

视频生成 sora 词条

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型的AI短视频吧！

数字人音视频

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

对于AI，我们现阶段可以有的态度

但这不妨碍我们现在开始尝试着接触他，了解他，至少在有一定认知后，不至于出现最近的那条“AI换脸、声音克隆后，被诈骗400多万元”新闻那样的事情发生。

文生图

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

一个完整Prompt让ChatGPT自动生成短视频制作脚本

———————— 把你想象成热门短视频脚本撰写的专家。

ChatGPT Prompt 视频

数字人直播哪家强？百度、硅基、风平与闪剪四大AI数字人横向评测！

「闪剪智播」在使用上有一个点与其他三款产品都不同，就是它的数字人只能使用录音文件驱动，虽然它本身也有一个插件是文本转AI声音，而且声音库还很丰富，但合成的音频却不能用于驱动数字人。

数字人数字分身

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1