文章列表-AI魔法学院

文章列表

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

从虚拟助手到客户服务机器人，语音人工智能已成为各个行业的重要工具。

GLM-4-Voice 9B 语音安装

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过

Whisper 语音优化

开源！数字人资源大集合！

AGORA 在 CVPR 2021论文中提出，由涵盖 350 多个独特主题的 4240 个扫描组成，全部与 SMPL-X 拟合配对。

数字人开源

一文读懂GPT-1：生成式预训练如何提升语言理解

为了深入探索大语言模型的发展历程，我们精心挑选了一系列经典论文进行分享，希望能与大家共同学习和理解大语言模型背后的技术。

GPT

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

今天给大家同时展示5款(Fish、F5、GPT、CosyVoice、MaskGCT)爆火的语音克隆-文本合成的效果展示。

语音克隆开源模型

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

简单点说，就是一个“大脑”，能装进各种小玩意儿里，能让各种设备（比如毛绒玩具）具备实时语音交互的能力。

OpenAI 嵌入式实时语音 SDK

忘掉 RAG，未来是 RAG-Fusion！搜索的下一个前沿：检索增强生成遇上倒数排名融合和生成查询

向量搜索融合：RAG通过将向量搜索功能与生成模型相结合，引入了一种新颖的范式。

RAG-Fusion 检索增强

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

audio2photoreal的全称是From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations，意思是从音频到逼真的人体表现合成对话中的人类

audio2photoreal 开源工具

如何成为LLM提示词大师！「大语言模型的底层心法」

生成（扩展）操作与缩减和转换任务涉及操作现有文本不同，生成操作从头开始合成全新的内容。

大模型提示词

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

近日，Google研究团队在其博客上发布了一篇文章，介绍了他们的最新研究成果：无监督语音到语音（Unsupervised Speech-to-Speech，简称USS）AI模型。

Translatotron 语音识别

硬核Prompt赏析：HuggingGPT告诉你Prompt可以有多“工程”

2303.17580.pdf HuggingGPT是近期非常火热的Agents方向的一个代表，它让ChatGPT这样的LLM能够使用HuggingFace社区的各种模型（包括但不仅限于文生图、图生文、语音转文字

提示词 prompt

胎教级SO-VITS-SVC使用教程：人工智能生成歌曲

（variational inference）、标准化流（normalizing flows）和对抗训练的高表现力语音合成模型应用so-vits-svc快速生成AI歌曲，仓库地址： https

音乐

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1