文章列表-AI魔法学院

文章列表

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术

coqui-ai TTS 语音

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

min_interval根据音频的平均间隔调整，如果音频太密集可以适当调低。

数字人声音克隆 GPT-SoVITS

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

一个完整Prompt让ChatGPT自动生成短视频制作脚本

———————— 把你想象成热门短视频脚本撰写的专家。

ChatGPT Prompt 视频

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

这一步就像是为后续的分析和处理搭建好了基础框架，确保音频数据能够以合适的形式被模型所接受，为特征提取做好充分准备。

clone-voice 声音克隆

十大开源语音识别项目

这项技术在多个领域有着广泛的应用，包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。

语音识别开源项目

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

一文带你看懂OpenAI-Sora生成视频的原理

那么，视频压缩网络究竟是如何做到的呢？

视频生成 sora

Suno音乐新手指南（手把手完整版教程）

为方便更多音乐爱好者使用AI创作音乐，中国AIGC产业联盟（AIGCxChina）发起了Suno爱好者社群并编写了以下指南。

suno 歌曲教程

阿里出品自动化视频剪辑工具FunClip！

它依托于阿里巴巴通义实验室的FunASR Paraformer系列模型，实现了视频中语音的自动识别。

FunClip 视频阿里

语音克隆又又又又又升级了

早在今年6月，Meta曾经推出过VoiceBox，能直接从文本生成高质量语音，不需要任何音频样本作为训练数据，可能是基于对音频Deepfake的担忧，一向秉承开源的Meta并未向工作开放VoiceBox

Meta 语音生成

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1