文章列表-AI魔法学院

文章列表

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

GLaM 被称为「通用语言模型」，是一个混合专家 (MoE) 模型，其中的参数是稀疏激活。

Transformer

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

ensp; 商业合作微信添加：lixing_lixing 元象持续打造国内开源标杆，在国内最早开源最大参数65B、全球最早开源最长上下文256K以及国际前沿的MoE

XVERSE-V 多模态大模型

北大开源最强aiXcoder-7B代码大模型！聚焦真实开发场景，专为企业私有部署设计

aiXcoder团队透露，未来提供企业服务时，可以让多个7B模型形成MoE架构，组合成为一套解决方案来完成企业定制化服务。

aiXcoder-7B 大模型

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

8B版本在这些任务上超越了Mistral和Gemma，70B版本则战胜了Gemini Pro和MoE架构的Mixtral，分别斩获相应规模的SOTA。

meta llama3

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

MoE - 稀疏门控制的专家混合层，最近爆出 GPT4 是由8个220B 的模型组合。

大模型人工智能

llm-action：让天下没有难学的大模型

配套代码 HuggingFace PEFT LLM分布式训练并行技术近年来，随着Transformer、MOE

大模型 LLM

OpenAI视频模型Sora的推理生成成本多高？

， N 为模型参数量大小， D 为训练数据量大小： LLM 每 token 需要的计算量是 6 倍的模型大小基于一些"众所周知"的消息： GPT-4 是一个 MoE

Sora 推理算力

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

Minimax：集成Minimax模型，包括MoE模型abab6。

AI开源集合

李彦宏偏爱小模型｜AI光年

开发者大会上分享了基于大模型开发AI原生应用的三个思路：一、未来大型的AI原生应用基本都是MoE

李彦宏小模型

Falcon 180B 开源影响了谁？

就像令蒋磊疑惑的一点是，为什么到了现在还没有出现MoE的Llama。

大模型

万字长文，AI大模型的应用实践总结

对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练

大模型

QWen1.5: 卓越模型之路

模型在一系列基础及扩展能力上进行了详尽评估，包括如语言理解、代码、推理等在内的基础能力，多语言能力，人类偏好对齐能力，智能体能力，检索增强生成能力（RAG）等，对比对象也增加了热门的Mixtral MoE

Qwen1.5 开源模型

投资人逃离大模型

其推出的“Step系列”通用大模型，让业内人士眼前一亮，其Step-2万亿参数MoE语言大模型，更是国内首家发布。

大模型

大模型训练工程那些事

为了跟上这种节奏就不得不紧锣密鼓地进行算力的扩展(构建 4k 集群，万卡集群) 探索更高效的模型训练方式(比如 MoE 训练) 展示模型的差异化能力(超长上下文的效果

训练工程大模型

大模型套壳祛魅：质疑套壳，理解套壳

他预测，未来大模型算法研究必然朝着 Infra 的方向去探索：稀疏化（Sparse Attention、 Sparse GEMM / MoE）将会是 2024 年学术界与工业界的主战场。

大模型套壳

<123 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1