文章列表-AI魔法学院

文章列表

惊艳推荐！8款好用又免费的文本转语音TTS工具

TTS Maker TTS Maker 是一个文本到语音（TTS）服务，支持多种语言和不同的声音选项（包括：中文、英语、日语、法语、阿拉伯语、韩语等等，甚至转换成方言：包括东北话、粤语、闽南话等等

TTS Maker 语音

阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

它集成了先进的语音增强（Speech Enhancement）、语音分离（Speech Separation）和音视频扬声器提取（Audio-Video Speaker Extraction）功能，能够在嘈杂环境中清理音频

ClearerVoice-Studio 语音

“实时”语音翻译！AI语音具有“情绪”！最强开源AI大模型来了

你想把一段语音转成文字，或者把一段文字转成语音，但是你不知道怎么操作！

大模型开源模型语音

实时语音克隆

项目简介这份内容介绍了实时语音克隆的技术实现，作者通过将说话者验证技术转移到多说话人文本到语音合成（SV2TTS）来实现语音克隆。

语音克隆

十大开源语音识别项目

是一个开源、易用、多合一的语音处理工具包，包含语音识别、语音翻译（英-中）、文本-语音、标点恢复功能。

语音识别开源项目

语音克隆又又又又又升级了

之前在前面的文章中有介绍，克隆你的声音，只需要你三秒的录音，声音克隆又进化了！

Meta 语音生成

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

哈工大科大讯飞联合推出中文LLaMA-2 & Alpaca-2大语言模型

本项目基于Meta发布的可商用大模型Llama-2开发，是中文LLaMA&Alpaca大模型的第二期项目，开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。

训练

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

语音识别的新拐点：OLMoASR 带来的机会

ASR，全称 Automatic Speech Recognition（自动语音识别），就是让机器“听懂你说话”，并把语音转换成文字。

OLMoASR 语音识别

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

此外，AudioCraft 还包括深度学习研究中使用到的 PyTorch 组件以及开发出来各个模型所需训练流程管道等内容，并提供 API 文档、常见问题 FAQ 等信息。

AudioCraft 音频

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

【开源项目】Flow Matching 语音合成

shivammehta25.github.io/Matcha-TTS/ 在线推理： https://huggingface.co/spaces/shivammehta25/Matcha-TTS 中文实现

音视频 Flow Matching

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

s=20 语言模型之外，继续开源两个中文多模态大模型在推出首个开源 Llama2 中文语言大模型之后，LinkSoul.AI 团队将目光投向了目前全球尚外于发展初期的语音文本多模态大模型和图文大模型

开源模型

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1