文章列表-AI魔法学院

文章列表

【语音识别】OpenAI语音力作Whisper

首先，通过特征提取器将原始音频输入变换为对数梅尔声谱图 (log-Mel spectrogram)。

语音转文字 whisper

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

中国大模型融资暗战：罗曼蒂克的快速消亡

多位接近闫俊杰的人士表示，“闫俊杰是典型的技术宅，说话声音小，可能并不擅长对外”，所以平时公司对外融资、以及一些管理、外部活动也通常由贠烨祎负责。

大模型暗战

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

详见语音克隆最佳实践指南[https://docs.fish.audio/text-to-speech/voice-clone-best-practices]。

Fish Speech 本地搭建

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

AI+音乐｜对话 Suno CEO：破圈的音乐生成产品是如何诞生的？

创始团队 Mikey Shulman：担任首席执行官，他曾担任Kensho的机器学习主管，麻省理工学院斯隆管理学院的讲师，哥伦比亚大学应用物理专业的学士学位和哈佛大学物理学专业的博士学位；

suno 音乐

FFmpeg之父新作——音频压缩工具 TSAC

根据官网介绍，TSAC可达到非常低的比特率，例如44.1 kHz采样率下的码率可以达到单声道 5.5 kb/s 或立体声 7.5 kb/s，具有良好的感知质量。

TSAC 音频工具

【万字长文-进阶教程】一文带你从入门到精通ChatTTS, 手把手教你固定音色、设置语速、添加停顿词、口头语、笑声！！

torch.tensor(np.concatenate(wavs,axis=-1)) Audio(finally_wavs, rate=24_000, autoplay=True) 效果展示: 男声音展示

chattts tts 文生语音

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

24年首篇离奇论文：加点噪声，RAG效果翻倍？！

· 研究结果发现相关文档比无关文档更有害于RAG系统，并且当放置正确时，无关但噪声的文档实际上有助于提高系统的准确性。

RAG 检索论文

胎教级SO-VITS-SVC使用教程：人工智能生成歌曲

/Win11/Mac/Ubuntu)上安装配置Python3.10开发环境 v3u.cn/a_id_200 so-vits-svc安装在你自定义的目录下使用Git命令克隆项目

音乐

对于AI，我们现阶段可以有的态度

但这不妨碍我们现在开始尝试着接触他，了解他，至少在有一定认知后，不至于出现最近的那条“AI换脸、声音克隆后，被诈骗400多万元”新闻那样的事情发生。

文生图

whisper-live：OpenAI Whisper模型的近实时实现

它可用于转录来自麦克风的实时音频输入和预先录制的音频文件。

OpenAI Whisper 大模型

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

只需提供一段音频和一个视频，PersonaTalk便能精准同步人物的口型，不仅让声音和嘴型无缝贴合，还能保留视频中人物的表情和个性化说话风格，仿佛原生发声一般自然流畅。

PersonaTalk 视频

第一性原理以及第一性原理是怎么帮马斯克成为首富的

马斯克践行第一性原理到商业化中的最大好处就是能大幅降低成本，也是马斯克引以为豪的五步工作法的最大实践应用。

马斯克商业

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1