文章列表-AI魔法学院

文章列表

Stablediffusion3论文下载-确定了Stablediffusion3与Sora的架构是一致的

Stablediffusion3,如果说一个是音视频方向，一个是图像生成方向，那么两者没有必然的联系，但Sora和Stablediffusion3的架构是出奇的一致，核心部分都是采用了Difusion Transformer

SD 论文

45个 DALL-E 3 使用案例 (附提示词) ，人人都是设计师

借助于 Transformer 模型优秀的自然语言能力，它可以精准地理解你的设计需求，并近乎如实地反映在画面上。

文生图

Giraffe：世界上第一个商业可用的32K长上下文开源LLM（基于Llama-2）

项目简介选择如何对 Transformer 的位置信息进行编码一直是 LLM 架构的关键组成部分之一。

开源模型

Meta无限长文本大模型来了：参数仅7B，已开源

近日，谷歌提出的 Infini-Transformer 引入有效方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求，吸引了人们的关注。

Meta 长文本大模型

SD3 正式开源 Sora同源架构

Stablediffusion3,如果说一个是音视频方向，一个是图像生成方向，那么两者没有必然的联系，但Sora和Stablediffusion3的架构是出奇的一致，核心部分都是采用了Difusion Transformer

SD3 绘画

大模型实践总结

对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练

大模型训练

图解大模型训练之：张量模型并行(TP)，Megatron-LM

今天我们将要介绍最重要，也是目前基于Transformer做大模型预训练最基本的并行范式：来自NVIDIA的张量模型并行(TP)。

开源模型

语音识别的未来已来：深入了解faster-whisper的突破性进展

faster-whisper简介 faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。

语音识别 Faster-Whisper

混合专家模型 (MoE) 详解

作为一种基于 Transformer 架构的模型，混合专家模型主要由两个关键部分组成: · 稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。

MoE大模型

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

arxiv.org/pdf/2308.09687v2.pdf Code：https://github.com/spcl/graph-of-thoughts 背景介绍近年来，随着基于解码器Transformer

大模型

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

一张图来看YOCO和标准Transformer的比较。

Decoder-Decoder YOCO 架构

什么是BERT？

而BERT利用MLM进行预训练并且采用深层的双向Transformer组件（单向的Transformer一般被称为Transformer decoder，其每一个token（符号）只会attend到目前往左的

embedding

45个 DALL-E 3 使用案例 (附提示词)

借助于 Transformer 模型优秀的自然语言能力，它可以精准地理解你的设计需求，并近乎如实地反映在画面上。

DALL-E 提示词文生图

Stable Diffusion

AI绘画巅峰对决：Stable Diffusion 3与DALL·E 3原理深度比较

AI 绘画中用到的 U-Net 实际上是引入了 Transformer 思想的加强版 U-Net 模型。

Stable Diffusion DALL·E

人工智能大语言模型微调技术：SFT 、LoRA 、Freeze 监督微调方法

对 Transformer 的每一层结构都采用 LoRA 微调的方式，最终可以使得模型微调参数量大大减少。

大模型微调

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1