文章列表-AI魔法学院

文章列表

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

下面进入今天的主题~ 需要特别注意：本文只是技术分享，在使用对应模型进行语音合成时，需要严格遵照对应项目的要求和法律法规！！

语音克隆开源模型

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

据项目介绍，Chinese-Llama-2-7b 开源的内容包括完全可商用的中文版 Llama2 模型及中英文 SFT 数据集，输入格式严格遵循 llama-2-chat 格式，兼容适配所有针对原版 llama

开源模型

百川智能正式发布130亿参数通用大语言模型百川大模型（Baichuan-13B-Base）

就在刚刚，王小川的开源大模型又有了新动作—— 百川智能，正式发布130亿参数通用大语言模型（Baichuan-13B-Base）。

大模型中文

万物皆可接入DeepSeek，44家接入R1的国产平台超详细大盘点

甚至是否接入DeepSeek都能成了股民们，判断是否投资的新方式。

deepseek 大模型

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

Translatotron 3结合了三种技术：掩码自编码器、无监督的嵌入映射、和反向翻译，来实现这个目标。

Translatotron 语音识别

LLMOps框架Dify发布Workflow功能，RAG进入自由编排时代（附产品负责人分享PPT ）

通过编排可以将开放域，复杂多步问题，分解为多个子问题分开解决，能用模型用模型，不能用模型的用流程，甚至采用“Human in Loop”的方式，将整个工作流程白盒化，把大模型能力限制在封闭的问题内，让大模型更可控

RAG 自由编排 Workflow

GGUF格式详解

在大模型领域，GGUF是一个非常常见的词语，也是非常常见的大模型预训练结果命名方式。

GGUF 大模型

结构化Prompt必备基础：5分钟学会Markdown语法，实现提示词创作自由！

因为他像AI时代的编程语言一样，可以让提示词的开发象代码一样有规范，不但方便团队的沟通和协作，也方便对于后期的维护升级。

Prompt 提示词 Markdown

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

然而激活函数由于在训练和测试时使用方式完全相同，所以是需要有确定性的输出，不能直接对输入x乘随机变量m，这点与Dropout不同（Dropout在测试时并不随机置0）。

大模型

AI声音克隆 | 最全最简教程（权威版）

它是一种将文本内容转换为语音的技术，通过TTS技术，计算机可以将文字信息转换成人类可听懂的语音输出，实现语音合成的功能目前市场上的AI声音我们最多用的还是普通的

声音克隆教程

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

接了语音模型模块，可以实现丝滑的大模型对话聊天功能。

ai小车 esp32 开源

TypeChat 入门指南

传统模式下，创建自然语言模型界面是一项复杂的任务，通常依赖复杂的决策树来确定意图并收集行动所需的输入。

TypeChat

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

那么，这个被誉为“语音识别的未来”的AI工具到底有何过人之处？

Distil-Whisper 语音识别

Westlake - Omni：西湖心辰推出的全球首个开源的中文情感端 - 端语音交互大模型

例如，在处理语音输入时，模型首先将语音信号转换为离散的符号序列，然后与文本的离散表示进行融合和交互。

Westlake -Omni 语音

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

不需要复杂的设计如持续时间模型、文本编码器和音素对齐，能够快速训练并实现实时因素（RTF）0.15的推理速度，显著优于当前基于扩散的TTS模型。

F5-TTS 音频克隆

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1