文章列表-AI魔法学院

文章列表

微软打破Decoder-Only架构！大幅降低GPU内存需求，网友：把Llama3 70B弄20GB GPU上运行

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构—— 提出Decoder-Decoder新型架构，名为YOCO（You Only Cache Once）。

Decoder-Decoder YOCO 架构

现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

/question/627258986/answer/3260798103 LLM现在一般都是基于Transormer结构，参数总和可以看作Embedding部分参数和Transormer-Decoder

大模型

图解 transformer——逐层介绍

五、Decoder 解码器的结构与编码器的结构非常类似，但有一些区别。

Transformer 大模型图解

大语言模型综述<演进，技术路线，区别，微调，实践，潜在问题与讨论>

相比于采用causal decoder-only结构的大语言模型，采用prefix decoder-only结构的ChatGLM-6B存在一个劣势：训练效率低。

大模型

图解 Transformer——功能概览

（原文为 Encoder stack 和Decoder stack）。

Transformer 大模型图解

【开源项目】Flow Matching 语音合成

We propose an improved encoder-decoder TTS architecture that uses a combination of 1D CNNs and Transformers

音视频 Flow Matching

深入探秘：百川7B大模型的训练代码解析，揭秘巨无霸语言模型背后的奥秘

先说下大模型的理论：大模型的底座模型就是多层的transformer，由于是因果语言建模，它只用了transformer的decoder模块。

大模型

从零开始了解AI大模型 - 技术篇：万字深度好文人话说大模型技术

大模型LLM架构方向Encoder & Decoder 目前，许多大型语言模型（LLM）采用了Decoder-only的架构。

大模型

大模型实践总结

而基于Transformer结构的模型又可以分为Encoder-only、Decoder-only、Encoder-Decoder这三类。

大模型训练

预训练对话大模型深度解读

论文地址：ai.googleblog.com/2020/01/tow… 3.3 CDial-GPT 由清华CoAI小组研发，基于Decoder-Only架构，参数量104M，预训练数据包含了大规模高质量中文开放域对话数据集

OpenAI视频模型Sora的推理生成成本多高？

（Video Encoder/Decoder 的计算量相比 DiT 可以忽略不计） Sora 的模型多大呢？

Sora 推理算力

【万字长文】LLaMA, ChatGLM, BLOOM的参数高效微调实践

模型结构上，与GPT相同，LLaMA采用了causal decoder-only的transformer模型结构。

大模型微调训练

Stable Diffusion

SD入门教程一：Stable Diffusion 基础（技术篇）

最后，这个中间产物会被Image Decoder（图片解码器）解码成一张真正的图片。

Stable Diffusion 文生图

Stable Diffusion

硬核解读Stable Diffusion（系列一）

Latent Diffusion是基于latent的生成模型，它先采用一个autoencoder将图像压缩到latent空间，然后用扩散模型来生成图像的latents，最后送入autoencoder的decoder

StableDiffusion 文生图

俄罗斯人开源了最大的文生图模型：参数量12B，比SDXL大了3倍多！

这里的prior模型是一个基于transformer decoder架构的扩散模型（下图中第一列），其采用CLIP text encoder来编码文本。

Kandinsky-3 文生图开源模型

<12 3 4 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1