文章列表-AI魔法学院

文章列表

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

EmotiVoice的最突出的特点是，它可以根据你的提示来调整语音的情感、语气、风格、速度、音高等参数，让你的语音更加生动和个性化。

EmotiVoice 语音合成

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

MaskGCT已在香港中文大学（深圳）与上海人工智能实验室联合开发的开源系统Amphion发布，Amphion今天登上了Github global trending榜首！

MaskGCT 声音克隆

解读wav2lip：探究语音驱动唇部动作的技术原理！

具体来说，wav2lip的训练流程如下：首先，提取音频特征，将音频特征与人脸图像进行配对，形成一个音频-图像对，然后训练专家音频和口型同步判别器。

wav2lip 语音

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

SenseVoice模型具有的功能特点：多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。

asr tts 声音

浅浅介绍下中文分词，用这些库搞定

以下是一些常用的中文分词库： 1. jieba：jieba是Python中最常用的中文分词库之一，具有简单易用、高效的特点。

Python 分词库

Stability AI推出视频生成模型Stable Video Diffusion

然而，需要注意的是，该模型目前处于“研究预览”阶段，使用者必须同意特定的使用条款，明确规定了其预期应用领域，如“教育或创意工具”等，同时禁止用于“真实事件或人物的表现”。

Video 视频创作 SD

完整ChatGLM3部署教程，支持手机和车载平台部署

同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。

ChatGLM3 大模型

Sora相关论文合集---全32套大放送

## 具体操作如下： ### 分类定义: 确定每篇文章或报告主要探讨的是什么？

Sora 论文

网易有道强力开源中英双语语音克隆

项目地址（基于PromptTTS）： https://github.com/netease-youdao/EmotiVoice EmotiVoice Docker镜像尝试EmotiVoice

语音开源

图像作为prompt#IP-Adapter

相比于text-to-image方法，IP-Adapter具有更小的参数量（22M参数），并且不需要进行大规模的微调。

prompt IP-Adapter 文生图

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

除了大海捞针实验之外，Qwen团队还在更复杂的长文本任务上测试了Qwen2.5-Turbo的能力。

Qwen2.5 开源模型

新模型Cascade你真的用对了吗？！

Cascade模型与之前的sd模型相比，主要区别是可以在更小的潜空间中工作。

Stable Cascade 模型

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

3、训练进展与模型成长在训练过程中，OuteTTS-0.1-350M 经历了显著的阶段式成长：当训练达到 1 亿个词元时，模型开始展现出基本的说话者音调和初步的发声尝试

OuteTTS-0.1-350M 音频

Stable Diffusion

Stable Diffusion教程：绘制3D风格的手办公仔

Stable Diffusion是一种强大的深度学习模型，能够将2D图像转化为具有丰富细节和质感的3D模型。

Stable Diffusion 教程 3D

大模型检索增强生成RAG的优化

RAG工作流程（with memory）从RAG的工作流程看，能优化的模块有：文档块切分、文本嵌入模型、提示工程优化、大模型迭代。

RAG 检索增强大模型

<...68 69 70 717273 74 75 76 77 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1