文章列表-AI魔法学院

文章列表

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

就像直播里的那只麋鹿，它能听懂你的问题，然后用自然流畅的语音跟你聊天，就是这个 SDK 的功劳！

OpenAI 嵌入式实时语音 SDK

Fooocus，webui，comfyui优缺点

今天主要想讲的其实是三大主流sd ui的优缺点首先fooocus看我公众号的小伙伴应该非常熟悉了，作者就是cn的制作者，也是国人。

Fooocus webui comfyui 文生图

如何使用ChatGPT写出优质文章

确定主题和目的细化主题：选择一个具体且明确的主题，例如，“气候变化对欧洲农业的影响”而不仅仅是“气候变化”。

ChatGPT 写作

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

AI声音克隆 | 最全最简教程（权威版）

一直没有写过关于声音克隆的文章，所以这次补上，毕竟这个用的还真是有点多，也为后面更多的个性化配音做好准备。

声音克隆教程

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

这种设计的优势在于减少了信息在不同模块之间传递时的损失和误差，使模型能够更好地优化全局目标。

Westlake -Omni 语音

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

这种技术的应用不仅降低了音乐制作的门槛，还为音乐爱好者和专业人士提供了新的创作工具，从而推动了音乐创作的民主化。

suno 音乐

TTS它又来了！OpenVoice：一款借鉴于TTS实现的强大的AI语音克隆工具！

而 OpenVoice 作为一款强大的多语言即时语音克隆AI工具，可以为用户提供高效、个性化的语音克隆服务，是一款值得推荐的项目。

tts 文本转语音

RAG超参数调优食用指南

接下来将用一个完整的使用指南来展示如何对 RAG 进行超参数优化，主要针对块大小和 top-K 两个参数。

rag 大模型

模型压缩：量化、剪枝和蒸馏

在移动智能终端品类越发多样的时代，为了让预训练语言模型可以顺利部署在算力和存储空间都受限的移动终端，对预训练语言模型的压缩是必不可少的。

BERT 语言模型

数字人：从科幻走向现实的技术革命

创建数字人需要多方面的技术支持，包括计算机图形学、动作捕捉、语音合成以及人工智能算法等。

数字人语音

使用ChatGPT写出优质长文、文章

运用多样化且深入的段落结构，以吸引并维系读者的兴趣。

ChatGPT 写作

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

在当今数字化时代，文本转语音（TTS）技术的应用愈发广泛，从智能语音助手到有声读物，从无障碍服务到教育娱乐领域，都离不开高质量的语音合成。

OuteTTS-0.1-350M 音频

17K star！30秒偷走你的声音，开源声音克隆工具

然后，它可以生成听起来自然的语音，以多种语言模仿该语音，同时为用户提供对情感、口音、节奏和语调等参数的精细控制。

OpenVoice 声音克隆开源

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1