文章列表-AI魔法学院

文章列表

whisper-live：OpenAI Whisper模型的近实时实现

它可用于转录来自麦克风的实时音频输入和预先录制的音频文件。

OpenAI Whisper 大模型

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

图文生成短视频的方法

把所有不需要的画面替换成自己需要的画面之后，你会在最下方看到两端音频。

视频 ChatGPT

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

如果你想亲自上手试试，打开对话输入“EMO”直达或进入“频道”选择“全民舞台”即可。

音频阿里

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。

大模型语音

17K star！30秒偷走你的声音，开源声音克隆工具

OpenVoice 只需要来自目标说话者的简短音频样本即可准确复制其独特的声调和特征。

OpenVoice 声音克隆开源

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

解读OpenAI Sora文生视频技术原理

图像视频作为prompts，用户提供的图像或视频可以自然的编码为时空碎片Patch，用于各种图像和视频编辑任务 -- 静态图动画、扩展生成视频、视频连接或编辑等。

sora

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

字节跳动最近推出了一款名为PersonaTalk的AI模型，这项黑科技让视频配音彻底摆脱了传统的“僵硬感”。

PersonaTalk 视频

基于 OpenAI Whisper 模型的实时语音转文字工具

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】什么是 WhisperLive？

WhisperLive 音频开源软件

视频大模型训练相关词条解释

Sora是OpenAI公司发布的一款AI视频生成模型。

视频生成 sora 词条

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型的AI短视频吧！

数字人音视频

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

虽然音频技术日新月异，但许多现有方案在复杂场景中仍难以提供稳定且高质量的音频体验。

ClearerVoice-Studio 语音

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1