文章列表-AI魔法学院

文章列表

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

教会AI画汉字（ComfyUI篇）

最近，央视公开了一些由ai生成的图片与视频，其中有几张图片非常有趣，成功吸引到了我，那便是这几张由ai与文字相结合的图片，这种奇妙的效果令我十分好奇，于是我便开始找寻相关的插件来达成类似的效果

comfyui 文生图

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD 论文

AI绘画Stable-Diffusion风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。

Stable-Diffusion 文生图

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

Suno音乐新手指南（手把手完整版教程）

为方便更多音乐爱好者使用AI创作音乐，中国AIGC产业联盟（AIGCxChina）发起了Suno爱好者社群并编写了以下指南。

suno 歌曲教程

语音克隆又又又又又升级了

早在今年6月，Meta曾经推出过VoiceBox，能直接从文本生成高质量语音，不需要任何音频样本作为训练数据，可能是基于对音频Deepfake的担忧，一向秉承开源的Meta并未向工作开放VoiceBox

Meta 语音生成

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

首先从数据开始：如果你想克隆一个人的声音，你可以找到一段这个人的演讲录音，或者视频，当然不同资源需要不同的处理如果是视频，可以使用人声分离，如下图，点击这个就会弹出

数字人声音克隆 GPT-SoVITS

SD3 正式开源 Sora同源架构

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD3 绘画

AI产品经理视角：如何构建人工智能产品

虽然它们都提供了令人兴奋的研究视角，但现实生活中的产品需要将数据、模型和人机交互结合到一个连贯的系统中。

大模型产品经理

了解Kimi必看的26个问题 | Kimi系列文（二）

了解到，目前的GenAI有文本类、视频类、绘图类、音频类、编程类、PPT、数字人、AI搜索等形式。

Kimi 大语言模型

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

2、特征提取：接着，使用Mel-spectrogram对音频信号进行表示。

clone-voice 声音克隆

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1