文章列表-AI魔法学院

文章列表

FFmpeg之父新作——音频压缩工具 TSAC

前两天FFmpeg作者Fabrice Bellard在个人主页发布了一款音频压缩工具TSAC。

TSAC 音频工具

Prompt | 抖音视频脚本

这个prompt可帮助您为 TikTok 视频生成极具吸引力的脚本。

prompt

语音、视频转文字神器：开源whisper介绍

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。

人工智能大模型 wisper

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

2、独特的音频处理三步法音频标记化（Audio tokenization）使用 WavTokenizer 对音频进行处理，每秒可处理 75 个标记

OuteTTS-0.1-350M 音频

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

本次让我们基于Bert-vits2项目来克隆渣渣辉和刘青云的声音，打造一款时下热搜榜一的“青岛啤酒”鬼畜视频。

Bert-vits 语音

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

facebookresearch/audiocraft[1] Stars: 16.6k License: MIT AudioCraft 是一个用于音频生成的

AudioCraft 音频

AI视频新技能！这套流程教你打造视频人物和声音完美同步！

这个视频中人物的身体姿势、头发、头部姿势、面部表情都在发生运动，看了上面的视频后，群里一位朋友问如何实现视频中的人物口型与音频的完美同步，以及当前可行的方法。

AI视频

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

一款构建AI数字人项目开源了！自动实现音视频同步！

本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

AI数字人音视频同步

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

语音和音频处理领域正在经历一场重大变革，从专门的自动语音识别（ASR）系统，转向集成的、多模态的音频大语言模型（Audio LLM）。

音频对比

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

对于音频对齐，作者收集了开源和内部的数据集，用于自动语音识别（ASR）和音频问答（AQA）。

Baichuan-Omni 多模态大模型

关于AI声音生成的一切（语音+音乐+嘴型）

2D/3D/视频生成最近都有很多值得关注的工具，但是要输出完整的AIGC作品，肯定少不了声音。

声音

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

然而，音频生成领域的进展却相对滞后。

开源模型

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1