文章列表-AI魔法学院

文章列表

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice-300M # 进入项目环境 export PYTHONPATH=third_party/AcademiCodec:third_party/Matcha-TTS

asr tts 声音

开源即巅峰！微软VibeVoice 7B模型：跨语言、多说话人、长文本一次到位

在当今数字化时代，文本转语音（TTS）技术的应用越来越广泛，从智能助手到有声读物，再到播客等多媒体内容创作。

VibeVoice 7B 语音

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

该工具使用 pytorch 作为深度学习引擎，并遵循 Kaldi 风格的数据处理和特征提取/格式以及配方来提供各种不同的实验设置。

AudioCraft 音频

深度体验3天后，我把腾讯这款copilot锁进了程序坞

与多元化的功能相反，ima的首页并不复杂，就像传统搜索引擎的主页，交互入口十分直接明了。

copilot ima 知识库

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。

语音识别 Faster-Whisper

震撼！AI语言模型突破瓶颈，26个提示词原则引领GPT-4响应质量飙升57.7%！你的模型还在等什么？

不同的问法会引导AI生成不同风格、不同详细程度的答案。

语言模型提示词 GPT-4

微信向量检索分析一体化数仓探索：OLAP For Embedding

相比于语义性检索引擎（ES）与专业的高性能检索服务，OLAP 数仓的向量检索能力在场景有何区别？

OLAP For Embedding 一体化数仓

AI声音克隆 | 最全最简教程（权威版）

TTS 的英文全名是 Text To Speech,中文译名是“文本转语音”。

声音克隆教程

火山写作：一款助力写作能力提升的AI助手

这是由字节跳动的火山引擎团队精心打造的AI创作辅助工具，无论是修改毕业论文、精炼个人简历，还是进行全文修订、检查语法拼写错误，添加生动词汇及灵活修改等，火山写作都能为您提供全方位的协助。

火山写作工具文章

AI Agent的千亿美金问题：如何重构10亿知识工作职业，掀起软件生产革命？

火热的背后是 Agent 的思路为我们带来了 Software 2.0 的图景：LLM 作为推理引擎能力不断增强，AI Agent 框架为其提供结构化思考的方法，软件生产进入“3D 打印”时代，可以根据用户需求进行个性化定制

大模型 AI编程

6.2K Star！MIT出品的多语言语音合成神器，CPU实时推理吊打商业软件！

想要个像样的TTS？

MeloTTS 语音工具

姜子牙大模型系列 | 为知识检索而生，Ziya-Reader开源，多个长文本中文任务第一

我们几乎每天都使用搜索引擎，搜索是大模型需求最多的落地应用之一。

大模型 Ziya

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

https://mp.weixin.qq.com/s/3h9NpU5Qn58WzSSeO9Ms9A 基础篇-ChatTTS介绍 ChatTTS 文本转语音项目在github爆火出圈，引来大家极大的关注

chattts tts 文生语音

盘点字节跳动最新的AI应用

#65039;⃣ 今日头条的小悟空（200+AI工具集，海外名称为ChipChop），4️⃣ 大力教育的河马爱学（AI辅助学习工具），5️⃣ 巨量引擎的即创

字节 AI工具

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1