文章列表-AI魔法学院

文章列表

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

Meta 语音生成

用so-vits-svc-4.1进行音色转换的极简教程

其实歌声转换不仅仅适用于歌声，普通讲话也可以，只是歌唱的音调基本能覆盖到低、中、高全域声音类型，而正常说话可能无法做到全域覆盖，但是如果在录制声音的时候能够做到覆盖多种音调类型，也可以实现声音转换。

声音 sovits

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。

chattts tts 文生语音

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

然而，语言模型缺乏像人类一样感知非文本模态（如图像和音频）的能力。

大模型语音

研究人员开源中文文本嵌入模型，填补中文向量文本检索领域的空白

领域内通用的解决方案是，将历史对话或者领域语料中的相关知识通过向量检索，再补充到 GPT 模型的上下文中。

GPT

ollama本地部署自然语言大模型

大模型已经发布很久，网络上的大模型形形色色，现在已然是群英荟萃，那么，如何在本地运行一个大模型？

ollama 语言大模型部署

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

网易有道强力开源中英双语语音克隆

推理输入文本格式是： <speaker>|<style_prompt/emotion_prompt/content>|<phoneme>|<content>

语音开源

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

· AudioGen：一种最新技术实现的文本到声音模型。

AudioCraft 音频

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

尤为独特的是，该模型能够精准捕捉文本中的情感信息，并将其巧妙地转化为富有情感色彩的语音，无论是欢快愉悦、悲伤难过，还是愤怒激昂、平静温和等情感，都能被细腻地呈现出来，让语音交互更具人性化和亲和力。

Westlake -Omni 语音

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

为了提高从数据集中生成的音频文本对的质量，作者利用了自家的ASR系统，并结合了多个开源模型来生成多个转录版本。

Baichuan-Omni 多模态大模型

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

前不久小圈为大家介绍过 Coqui 文本转语音（Text-to-Speech，TTS）模型，相比较市面上原有的开源TTS模型，Coqui 有其独特的优势，也受到了广大科技互联网爱好者的青睐

EmotiVoice 语音库

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1