文章列表-AI魔法学院

文章列表

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

Flowith：革新你的工作方式，体验节点式 AI 的超流畅生产力

无论是内容创作者、研究人员、还是企业高管，我们都需要一个能够高效整合信息、提升工作效率的工具。

Flowith GPT 生产力工具

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

一文带你看懂OpenAI-Sora生成视频的原理

OpenAI在X上发布消息在此之前，尽管Runway、Pika、Kreadoai、Moonvalley、Pixverse等早已推出了各具特色的视频生成工具，但OpenAI的Sora视频生成模型如同一颗新星

视频生成 sora

Suno音乐新手指南（手把手完整版教程）

Suno是当前全球音乐创作领域的头部工具，地位堪比GPT、Midjourney和Sora等巨头。

suno 歌曲教程

语音克隆又又又又又升级了

早在今年6月，Meta曾经推出过VoiceBox，能直接从文本生成高质量语音，不需要任何音频样本作为训练数据，可能是基于对音频Deepfake的担忧，一向秉承开源的Meta并未向工作开放VoiceBox

Meta 语音生成

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

今天，就让我们一同深入了解一款备受瞩目的声音克隆工具——clone-voice。

clone-voice 声音克隆

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和

数字人声音克隆 GPT-SoVITS

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

Fish Speech是一款由Fish Audio开发的开源的文本到语音（TTS）工具，支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

Fish Speech 本地搭建

一个完整Prompt让ChatGPT自动生成短视频制作脚本

———————— 把你想象成热门短视频脚本撰写的专家。

ChatGPT Prompt 视频

淘宝模特全体注意！阿里AnyDoor AI换装神器出来了，年度最强AIGC重制绘图工具，重塑电商模特产业

但近日，阿里和港大联手推出了一个工具，可以轻松实现一键换衣，更重要的是，操作简单，实现效果惊人。

AnyDoor 换装文生图

十大开源语音识别项目

它在大量多样化的音频数据集上进行训练，作为一个多任务模型，可以执行多语言语音识别、语音翻译和口语识别。

语音识别开源项目

实时语音克隆

在第一阶段，人们从几秒钟的音频中创建声音的数字表示。

语音克隆

中学生也能看懂的Sora视频生成原理解读

具体到Sora的实现，这个过程开始于一段与目标视频同样时长、但是内容完全是随机噪声的视频。

视频生成 sora

Stability AI开源上新：3D生成引入视频扩散模型

也就是说，此番登场的SV3D首次将视频扩散模型应用到了3D生成领域。

sv3d 建模

<...5 6 7 8910 11 12 13 14 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1