文章列表-AI魔法学院

文章列表

Falcon 180B 开源影响了谁？

就像令蒋磊疑惑的一点是，为什么到了现在还没有出现MoE的Llama。

大模型

万字长文，AI大模型的应用实践总结

对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练

大模型

投资人逃离大模型

其推出的“Step系列”通用大模型，让业内人士眼前一亮，其Step-2万亿参数MoE语言大模型，更是国内首家发布。

大模型

大模型训练工程那些事

为了跟上这种节奏就不得不紧锣密鼓地进行算力的扩展(构建 4k 集群，万卡集群) 探索更高效的模型训练方式(比如 MoE 训练) 展示模型的差异化能力(超长上下文的效果

训练工程大模型

大模型套壳祛魅：质疑套壳，理解套壳

他预测，未来大模型算法研究必然朝着 Infra 的方向去探索：稀疏化（Sparse Attention、 Sparse GEMM / MoE）将会是 2024 年学术界与工业界的主战场。

大模型套壳

揭秘DeepSeek:一个更极致的中国技术理想主义故事

「暗涌」：你觉得AGI还要多久实现，发布DeepSeek V2前，你们发布过代码生成和数学的模型，也从dense模型切换到了MOE,所以你们的AGI路线图有哪些坐标？

DeepSeek 大模型

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

专家混合（Mixture of Experts）：Mixtral因其出色的性能重新流行了MoE架构。

LLM 大模型 GitHub

从零开始了解AI大模型 - 技术篇：万字深度好文人话说大模型技术

混合专家系统（Mixture of Experts, MoE）是将预测建模任务分解为若干子任务和训练一个专家模型（Expert Model）开发一个门控模型（Gating Model）。

大模型

<1 23>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1