文章列表-AI魔法学院

文章列表

clone-voice：一键克隆声音，开源AI技术让声音创作更便捷、更个性化

clone-voice 下双击 app.exe ，等待自动打开web窗口，请仔细阅读cmd窗口的文字提示, 如有错误，均会在此显示模型下载后解压到软件目录下的 tts

clone-voice 声音克隆

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

LiveKit 支持语音、视频和数据流处理，内置了自动语音识别（ASR）和文本转语音（TTS）功能，简化了语音到文本和文本到语音的转换过程。

GPT-4o 语音交互

智谱AI静悄悄的上线了一大波新模型，过年了，真的

可以标记，不过可惜的是声音能明显的感觉到是极低延时的TTS，在实时对话中是可以打断的。

智谱AI 大模型

从专业ASR到统一音频LLM：七大顶尖模型的深度对比分析

这实现了真正的端到端、双向的语音交互，绕过了传统的ASR -> LLM -> TTS流水线。

音频对比

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

端到端语音处理：与许多依赖于单独的文本到语音 (TTS) 或语音到文本 (STT) 模块的模型不同，GLM-4-Voice 直接以口语形式进行解读和响应

GLM-4-Voice 9B 语音安装

2023年人工智能行业总结

而变声模型vits和文本转语音TTS的发展，也让GPT有了耳朵和嘴巴。

人工智能 AGI 思考总结

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

对于图像-文本数据，作者将文本数据按1:3比例分割，使用文本转语音（TTS）技术将初始四分之一文本转换为音频描述。

Baichuan-Omni 多模态大模型

AI+智能客服：大模型可落地的最成熟场景之一

、激动、嫌弃、懊悔、羞愧、解恨、犹豫、思念、感动、敬佩、心慌、低落、骄傲、心虚、羡慕、辱骂 ) 阿里小蜜团队（2）智能语音技术智能语音技术包括语音识别（ASR）和语音合成（TTS

ai 客服

<1 23>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1