文章列表-AI魔法学院

文章列表

混合专家模型 (MoE) 详解

) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。

MoE大模型

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

· 专家混合 (MoE) 架构：Mixtral 8x7B 创新地采用了 MoE 架构，该架构拥有八位“专家”和七十亿参数，能够将数据高效地分配给各自擅长处理特定任务的神经网络部分。

开源模型 Mixtral 8x7B

手把手！做Llama3的MoE专家混合模型！底层原理怎样的？做自己的MoE模型？需要多少算力？

彻底把MoE讲透！

MoE 专家混合模型

大模型的研究新方向：混合专家模型（MoE）

在多模态大模型的发展浪潮之下，MoE大有可能成为2024年大模型研究的新方向之一，而大模型也会带着MoE，让其再次伟大。

MoE 大模型

国内首个！最火的MoE大模型APP来了，免费下载，人人可玩

MoE（混合专家）模型最近有多火，不用过多介绍了吧？

MoE大模型 APPa

0基础！动手部署Qwen1.5-MoE模型！能力如何？API接入fastgpt等任何应用！喂饭到嘴教程，附模型下载！

上年9月份，我们就在谈moe模型的开发，而且要小而精！

Qwen1.5-MoE 大模型下载

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。

Grok-1 开源模型

大模型实践总结

对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练

大模型训练

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

从应用落地的角度看，轻量级、MoE 大模型已经成为人们重要的探索方向。

MiniCPM 大模型

个人从零预训练1B LLM心路历程

Steel LLM在FFN上的修改有两部分，soft MOE和SENet。

LLM 训练

必读！RAG好用的3种Router

PolyRouter与Moe的区别 · MoE架构包含一组专家模型，这些模型被训练以专门处理不同的数据区域，同时还有一个门控网络模型，负责确定每个专家对最终预测的贡献 · LM路由方法可以视为MoE

RAG Router

DeepSeek V3刷屏，550万元2000张卡做出的开源模型，和OpenAI几亿烧出来的一样好

在Deepseek V3 技术报告公布的性能指标上来看，这个开源MoE模型，已经在性能上“对齐海外领军闭源模型”。

DeepSeek V3 开源模型

阿里Qwen3系列模型惊艳亮相

qwen3/ · 试用地址：https://chat.qwen.ai/ 具体来讲，Qwen3系列模型有两款MoE

阿里 Qwen3 大模型

Deepseek-V2技术报告解读！全网最细！

深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。

Deepseek-V2 大模型

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

2.6 ViTPose+使用MoE机制扩展多数据集图2 ViTPose+中的FFN-MoE结构表5 ViTPose

ViTPose+Transformer 身体姿态

<12 3 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1