文章列表-AI魔法学院

文章列表

【TTS语音克隆开源最强王者】5款爆火开源模型(Fish、F5、GPT、CosyVoice、MaskGCT)效果对比，等你来评!

（TTS）: 输入 5 秒的声音样本，即刻体验文本到语音转换。

语音克隆开源模型

为什么国产大模型都说超越ChatGPT而体验却很拉？警惕 Goodhart law 陷阱

最近不少国产大模型声称，他们的表现甚至超越了业界知名的ChatGPT模型。

ChatGPT 国产大模型

2023年人工智能行业总结

而变声模型vits和文本转语音TTS的发展，也让GPT有了耳朵和嘴巴。

人工智能 AGI 思考总结

图文生成短视频的方法

然后，在进入「导入剪辑」中，把所有自己需要的素材替换掉，记得关闭原声哈。

视频 ChatGPT

这个数字人开源项目太牛了，非常全面的项目解决方案(含源码)

语音助理和远程语音助理：数字人可以作为语音助理，进行语音交互，提供信息查询、日程管理等辅助任务。

Fay 开源项目数字人

教你打造属于自己的AI孙燕姿，AI歌手模型使用及训练保姆级课程 #1/2 使用模型

原始声音处理要使用模型进行推理的话你首先需要一段已经演唱好的声音垫进去，然后使用模型把原来的音色换成你模型训练好的音色（类似AI画图的img2img垫图）。

生成式AI

《特朗普爱上在白宫当保洁的我》拍好了，3个月赚了10个亿

无论看还是不看这些短剧的，都是吐槽声一片，因为剧情过于反智雷人，但又让一部分人忍不住想看看后面到底还有啥剧情。

短剧

2023年人工智能行业总结（精简版）

年初的vits项目能完美模拟人的声音特点，AI孙燕姿能唱周杰伦的歌。

人工智能行业总结

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

零样本 & 小样本 TTS：输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。

Fish Speech 本地搭建

基于LLM+向量库的文档对话痛点及解决方案

痛点：文档切分粒度不好把控，既担心噪声太多又担心语义信息丢失笔者之前采用了Longchain的文档切分工具，发现不能问题。

开源模型

3 分钟，把一篇 3000 字长文变成“脱口秀”——开源神器 Twocast 实战指南

复制粘贴就行，不用排版内置 3 大 TTS 引擎 Fish 声音最自然

Twocast 开源

Roop参数说明，ROOP->StyleGAN演示！

保留音轨（keep audio）音轨就是指视频的声音，勾选这个参数就是保留原视频的声音，大部分情况下，肯定是要选择启用。

视频 StyleGAN

Stable Diffusion

SD入门教程一：Stable Diffusion 基础（技术篇）

），顾名思义，它就是能预测出随机图里包含什么噪音的模型。

Stable Diffusion 文生图

搞了一个Dify开源知识库

Workflow：打造你的智能工作流 · 初衷：也是在机缘巧合下，感谢MAX和众多大佬的呼声支持下

Dify 大模型知识库

ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

多模态（Multi-Modal）: 多模态主要是指让机器能够理解和处理自然界或人工定义的多种模态信息，如声音、语言、视觉信息和表格、点云信息等。

开源

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1