文章列表-AI魔法学院

文章列表

有道开源的国产语音库EmotiVoice爆火了！具有情绪控制功能的语音合成引擎！

前不久小圈为大家介绍过 Coqui 文本转语音（Text-to-Speech，TTS）模型，相比较市面上原有的开源TTS模型，Coqui 有其独特的优势，也受到了广大科技互联网爱好者的青睐

EmotiVoice 语音库

生成式AI与大语言模型的区别

生成式人工智能可以被定义为专注于创建具有生成原创内容能力的模型，例如图像、音乐或文本。

生成式AI 大语言模型区别

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

Azure一个月几千块，Google Cloud按分钟收费免费的质量垃圾，机器味儿浓到让人怀疑人生中文支持？

MeloTTS 语音工具

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

国内厂商语音识别与Whisper评测：现状与概况对比

本文旨在通过对国内几家主要厂商的语音识别技术与 Whisper 技术进行评测和对比，以期更全面地了解国内语音识别技术的现状与概况。

语音识别 Faster-Whisper

RAG 2.0来了，它能成为生产落地的福音吗？

在典型的RAG系统中，通常会采用现成的通用嵌入模型来实现数据的嵌入处理，利用向量数据库进行高效的信息检索，并结合大型的黑盒语言模型来完成内容的生成。

RAG 大模型

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

Stable Diffusion

Stable Diffusion教程：文生图

最近几天AI绘画没有什么大动作，正好有时间总结下Stable Diffusion的一些基础知识，今天就给大家再唠叨一下文生图这个功能，会详细说明其中的各个参数。

文生图 Stable Diffusion

图文生成短视频的方法

现在都是使用AI创作的时代，你完全可以把你想要表达的主题，用AI生成一个爆款的视频文案。

视频 ChatGPT

打造音乐传奇：Suno推出音乐生成模型Suno V3，让每个人都能成为作曲家

我们深信，借由科技的持续进步和创新，AI将在音乐文化中发挥无可替代的作用。

suno 歌曲音乐

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

这款工具具有很高的速度，能够在批量处理中大幅提高生产效率。

生成式AI

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1