文章列表-AI魔法学院

文章列表

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

音乐可能是最具挑战性的音频类型，因为它由局部和长程模式组成，从一系列音符到具有多种乐器的全局音乐结构。

开源模型

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

希音面试：SSE 底层原理是什么？快20年了，为何突然爆火？

最近有小伙伴在面试希音、滴滴、阿里等，都到了这个的面试题。

SSE 大模型

DeepMusic发布“和弦派”2.0：重塑AI音乐创作范式，赋予创作者全方位掌控

4月29日，国内领先的人工智能音乐服务商DeepMusic，发布了自主研发的AI音乐工作站——“和弦派”2.0正式版。

和弦派 DeepMusic 音乐创作

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

DeepMedia公司的创始人Rijul Gupta表示：“我们基本上已经完美地实现了这项新技术，任何人都可以克隆任何人的声音，并通过5秒钟的音频参考，让它用不同的语言说话。”

AI

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

编码器处理整个音频输入，以创建一个丰富的声学表征。

音频对比

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

Bert的加入让语音的韵律和情感表达更自然。

MeloTTS 语音工具

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

以前，智能玩具里只能播放预设的程序和声音，顶多就是进行一两轮简单提问，你可以理解成是“单向输出”，现在有了这个 openAI 的实时语音软件开发包，就变成了“双向交互”，能和你进行实时的语音对话。

OpenAI 嵌入式实时语音 SDK

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

作者的音频涵盖44种音色，确保音色丰富多样。

Baichuan-Omni 多模态大模型

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

它在语音合成方面表现卓越，利用先进的深度学习技术，实现了高质量的语音输出，其发音精准、流畅自然，仿佛真人发声。

Westlake -Omni 语音

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1