文章列表-AI魔法学院

文章列表

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用一句简单的提示来控制你的语音合成器，那该多方便？

EmotiVoice 语音合成

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

无论您是钻研语音合成、制作 Deepfake 动画、通过文本提示绘制稳定扩散视频还是视频制作，Wunjo AI 都能满足您的需求。

AI语音克隆实时语音识别

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码，可以产生高质量音频。

AudioCraft 音频

关于AI声音生成的一切（语音+音乐+嘴型）

PRETSSEL是一个表达性单元到语音生成器，能够有效地从语音中分离语义和表达性成分，并转移话语级别的表达性，如个人的声音风格。

声音

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

但是近期，网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice，刚上线仅一周时间就暴涨4200颗星，问鼎当周GitHub trending流行榜第一。

EmotiVoice 语音库

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

语音合成这块，真的是被几家大厂搞得乌烟瘴气。

MeloTTS 语音工具

【语音识别】OpenAI语音力作Whisper

然后预测时，需要配合额外的逆文本标准化（inverse text normalization）来生成自然转写（比如加标点符号）。

语音转文字 whisper

ComfyUI王牌！复合生成！必须揉在一起

上期我们讲了利用基于语言到图像的生成网络的GLIGEN模型可以做到指哪打哪的生成。

comfyui 文生图

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

这使得模型能够在不同语种之间进行语音合成，而无需在任何双语或平行示例上进行训练。

coqui-ai TTS 语音

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

它集成了先进的语音增强（Speech Enhancement）、语音分离（Speech Separation）和音视频扬声器提取（Audio-Video Speaker Extraction）功能，能够在嘈杂环境中清理音频

ClearerVoice-Studio 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1