文章列表-AI魔法学院

文章列表

开发语音产品时设计唤醒词和命令词的技巧

在实际开发语音产品过程中，要达到好的语音识别效果，除了语音算法要给力外，设计出好的唤醒词和命令词也能起到事倍功半的效果。

语音产品唤醒词命令词

6个最佳开源TTS引擎

TTS引擎用于实现文本到语音的转换。

TTS引擎开源模型

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

我亲测过的痛点，大家应该都遇到过：想做个语音播报？

MeloTTS 语音工具

有感情的语音合成开源模型：ChatTTS安装使用详解

ChatTTS是一个为对话场景设计的语音生成模型，专门用于大型语言模型（LLM）助手的对话任务、对话语音和视频介绍等应用。

ChatTTS 语音合成

大语言模型LLM和知识图谱KG增强的企业搜索应用

LLM并不擅长搜索每个人都大肆宣传的所有这些技术的基础是大型语言模型（LLM）。

开源模型

whisper-live：OpenAI Whisper模型的近实时实现

该项目是一个实时转录应用程序，使用 OpenAI Whisper 模型将语音输入转换为文本输出。

OpenAI Whisper 大模型

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性

minicpm 面壁

大语言模型定制化应用的三种方式：Prompt engineering、Fine tuning、Pre-trainning的区别

以下是它们的区别和使用场景： Prompt Engineering（提示工程）：Prompt Engineering是通过设计和优化输入的提示或指令，以引导模型生成特定类型的输出。

大模型

如何用大语言模型构建一个知识问答系统

需求描述打造特定领域知识(Domain-specific Knowledge) 问答系统，具体需求有：通过自然语言问答的形式，和用户交互，同时支持中文和英文

知识库

颠覆数据存储方式：向量数据库的威力

向量数据库通过计算向量之间的相似度来搜索数据，因此它特别适用于人脸识别、语音识别、推荐系统等需要高维度数据处理的领域。

编程数据库

惊艳推荐！8款好用又免费的文本转语音TTS工具

虽然这种方法能够产生可理解的语音，但由于样本数量的限制，很难达到完全自然的语音合成效果。

TTS Maker 语音

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

从 GPT-4o 到 LiveKit：实时语音交互的开源实现

今天我们来聊聊OpenAI 发布会提到的实时对话语音技术。

GPT-4o 语音交互

GLM-4-Voice 9B——实时多语言语音对话 AI——几分钟内即可在本地安装

然而，大多数模型在流利地切换语言、理解口语查询的细微差别以及提供高质量响应方面仍然面临挑战。

GLM-4-Voice 9B 语音安装

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

只是别被缅北拿去就好。

F5-TTS 音频克隆

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1