文章列表-AI魔法学院

文章列表

基于 OpenAI Whisper 模型的实时语音转文字工具

，用于实时音频处理、效果制作和声音合成。

WhisperLive 音频开源软件

集成文字生成、抠图、图像融合等强大功能的comfyUI 插件 Allor Plugin

然后就可以直接使用作者提供的三个案例来学习了，这也是ComfyUI最强的地方，只要节点都安装好，就可以使用他人分享的工作流一键生成。

comfyui 插件绘画

开源免费离线语音识别神器whisper如何安装

Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文

wisper 翻译免费

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

生成式AI与大语言模型的区别

同样，音乐和文本生成模型分别在庞大的音乐或文本数据集上进行训练。

生成式AI 大语言模型区别

RAG 2.0来了，它能成为生产落地的福音吗？

在典型的RAG系统中，通常会采用现成的通用嵌入模型来实现数据的嵌入处理，利用向量数据库进行高效的信息检索，并结合大型的黑盒语言模型来完成内容的生成。

RAG 大模型

国内厂商语音识别与Whisper评测：现状与概况对比

随着人工智能技术的飞速发展，语音识别已经成为了现代社会中一个重要的研究领域。

语音识别 Faster-Whisper

开发语音产品时设计唤醒词和命令词的技巧

符合用户的语言习惯，尽量采用常用说法，内容具体直接； 4.

语音产品唤醒词命令词

AI声音克隆 | 最全最简教程（权威版）

TTS 的英文全名是 Text To Speech,中文译名是“文本转语音”。

声音克隆教程

哈工大科大讯飞联合推出中文LLaMA-2 & Alpaca-2大语言模型

这些模型在原版Llama-2的基础上扩充并优化了中文词表，使用了大规模中文数据进行增量预训练，进一步提升了中文基础语义和指令理解能力，相比一代相关模型获得了显著性能提升。

训练

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

然而，音频生成领域的进展却相对滞后。

开源模型

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++dengdeng。

语音 HeyGen

懒人福音！用AI生成会议纪要，让你的工作更高效！

下面我会把已经在用的流程和经验分享给大家，包括语音转文本工具的用法，AI总结会议的提示词等等。

会议纪要 AI工具

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

多语言支持：不仅支持中文，还支持许多其他国家的语言，并能够将结果翻译成英文，但只限于英文翻译。

生成式AI

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1