文章列表-AI魔法学院

文章列表

数字人之声音克隆：无样本，1分钟样本完美克隆声音，开源

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。

数字人声音克隆 GPT-SoVITS

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

与以往主要迎合单一类型的音频（如人声）的工作不同，或者专注于特定任务（如语音识别和字幕），或者将模型限制在单一语言上，我们扩大了训练规模，涵盖了超过30个任务、八种语言和各种音频类型，以推进通用音频理解能力的发展

大模型语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

语音识别的新拐点：OLMoASR 带来的机会

ASR，全称 Automatic Speech Recognition（自动语音识别），就是让机器“听懂你说话”，并把语音转换成文字。

OLMoASR 语音识别

企业数字化转型的“阿里阿德涅之线”在哪？

然而，企业数字化转型的成功率却不高。

大模型用户

超级转化！5个让销售数字飙升的顶级 Prompts！

这些Prompts不仅简单易懂，还能让你的销售策略转换成现实成果。

Prompt 提示

ChatGPT+文字转视频工具，让1个人1天轻松生产100条原创视频（内附全部工具）

今天给大家分享一个 ChatGPT+文字转视频AI工具，批量跑原创视频的玩法。

生成式AI

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

，使用各种语音转换 AI (VC，Voice Conversion) 进行操作。

AudioCraft 音频

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

在当今数字化时代，人工智能技术正以前所未有的速度发展，深刻地改变着我们的生活和工作方式。

Westlake -Omni 语音

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

前不久小圈为大家介绍过 Coqui 文本转语音（Text-to-Speech，TTS）模型，相比较市面上原有的开源TTS模型，Coqui 有其独特的优势，也受到了广大科技互联网爱好者的青睐

EmotiVoice 语音库

开源免费离线语音识别神器whisper如何安装

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。

wisper 翻译免费

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1