文章列表-AI魔法学院

文章列表

语音克隆又又又又又升级了

，时隔几个月Meta又推出了最新的语音生成技术，不仅能可能声音，还能通过对声音的描述来生成独特的音色，同时还能通过描述来生成各种各样的音效，甚至能通过文字描述来编辑声音，整体来说，这项技术几乎囊括了现在人们对语音生成技术的所有的需求

Meta 语音生成

StableDiffusion

深度解析丨StableDiffusion在多个设计场景中的探索与应用

本文将深入解析StableDiffusion在多个设计场景中的探索与应用，尤其关注如何利用其制作多种商业落地案例。

文生图

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

主要特征语音合成：轻松将文本转换为类似人类的语音。

AI语音克隆实时语音识别

检索增强生成(RAG)：LLM企业级应用落地的挑战与思考

查询延迟受到数据规模、检索算法、网络IO等多方面影响。

大语言模型 RAG检索增强

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

每个编码器层都有多头自注意力机制和前馈神经网络，用于对输入序列进行多层次的特征提取和表示学习。

Bert-vits 语音

LLM之RAG实战（五）| 高级RAG 01：使用小块检索，小块所属的大块喂给LLM，可以提高RAG性能

然而，在有效检索相关信息和生成高质量响应方面，RAG面临着许多挑战。

RAG 检索

Prompt 策略：代码库 AI 助手的语义化搜索设计

ChatGPT 根据 CF 检查的代码，返回的答案：根据提供的代码，我们可以看到 CodeSemanticWorkflow 是一个继承自 Workflow 的类，它实现了 execute 方法来执行语义化的代码搜索

prompt

自己电脑上跑大语言模型（LLM）要多少内存？

在本地电脑上运行大型语言模型(LLM)，需要考虑的关键因素之一就是电脑的内存够不够。

大语言模型运行

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

，使用各种语音转换 AI (VC，Voice Conversion) 进行操作。

AudioCraft 音频

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1