文章列表-AI魔法学院

文章列表

2023年LLM如何入门？请看这篇综述！

补充一点有趣的，当参数规模超过一定水平时，这些扩大的语言模型不仅可以实现显著的性能提升，还表现出一些特殊的能力，比如上下文学习能力等等，这是小规模语言模型（例如BERT）所没有的，这种现象被称为涌现Emergence

大模型

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

自回归系统隐式地建模持续时间，但在鲁棒性和持续时间可控性方面存在一定缺陷。

MaskGCT 声音克隆

深入探秘：百川7B大模型的训练代码解析，揭秘巨无霸语言模型背后的奥秘

（二、软件和部署) 本期开始，为大家讲下这些大模型是怎么训练生成的首先，为了确保本系列的讲解流畅，我将直接深入讲解大型语言模型的代码。

大模型

Agent具体实现

ensp; · 该问题可以被拆分成多个子模块，每个子模块都能清晰地定义输入、

Agent 大模型

17K star！30秒偷走你的声音，开源声音克隆工具

然后，它可以生成听起来自然的语音，以多种语言模仿该语音，同时为用户提供对情感、口音、节奏和语调等参数的精细控制。

OpenVoice 声音克隆开源

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

以下为本站SD画图软件生成图片赏析： StableDiffusion文生图软件的核心优势在于其能够利用深度学习技术，通过自然语言的描述生成高质量的图像。

SD 视频课程 AI绘画

6个最佳开源TTS引擎

TTS引擎用于实现文本到语音的转换。

TTS引擎开源模型

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

尽管配备了八个专家，在实际运算时每个Token仅需两个专家参与。

开源模型 Mixtral 8x7B

SD3 正式开源 Sora同源架构

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向

SD3 绘画

FFmpeg之父新作——音频压缩工具 TSAC

其原理和我们之前介绍的突破压缩极限的AI语音编解码器类似，使用深度学习网络进行压缩，TSAC这里引入Transformer结构来提升性能。

TSAC 音频工具

Coze多智能体（Multi-Agents）模式体验！

以一个具体的实例作为起点，我计划创建一个“虚拟互联网软件公司”，为开源项目的快速开发提供全面的服务支持。

Coze 多智能体

Prompt全攻略(一):ChatGPT时代,什么是Prompt?

随着GPT-3等预训练语言模型的进步,ChatGPT这类交互式人工智能chatbot应运而生。

prompt

万字长文，大语言模型如何宣告心理学的死亡？

行为主义的幽灵延续人类心理学的研究方法心理学家在谈论一个人的人格或者一个人的心理时，其实是在深入了解他的思维模式、情感反应和行为方式。

大语音模型

Stable Diffusion

Stable Diffusion高级教程 - 图生图(img2img)模式

越多越好，但需要更长的时间。

Stable Diffusion 图生图

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1