文章列表-AI魔法学院

文章列表

RVC和SVC声音模型难找？推荐这个网站

本篇文章介绍：1，声音数据集训练到模型的过程 2 ，SVC和RVC声音模型网站推荐一、声音数据集训练到模型的过程 AI声音模型训练是通过分析大量音频数据来学习声音特性，生成与目标声音相似的新音频

声音克隆数字人

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

;7.2k License: Apache-2.0 ESPnet 是一个端到端的语音处理工具包，涵盖了端到端语音识别、文本转语音、语音翻译、语音增强、说话人分离等功能

AudioCraft 音频

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

接下面让我们看看这款国产语音库为何如何迅速的火遍大江南北的🔥！

EmotiVoice 语音库

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

我亲测过的痛点，大家应该都遇到过：想做个语音播报？

MeloTTS 语音工具

最强开源数字人对口型系统介绍

大家好，今天给大家介绍的是开源“最强”的数字人克隆方法 Easy-Wav2Lip: 仓库地址： https://github.com/anothermartz/Easy-Wav2Lip

数字人开源模型

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

国内厂商语音识别与Whisper评测：现状与概况对比

语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域，还有望为残障人士提供更便捷的沟通工具。

语音识别 Faster-Whisper

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1