文章列表-AI魔法学院

文章列表

必读！RAG好用的3种Router

PolyRouter与Moe的区别 · MoE架构包含一组专家模型，这些模型被训练以专门处理不同的数据区域，同时还有一个门控网络模型，负责确定每个专家对最终预测的贡献 · LM路由方法可以视为MoE

RAG Router

DeepSeek V3刷屏，550万元2000张卡做出的开源模型，和OpenAI几亿烧出来的一样好

在Deepseek V3 技术报告公布的性能指标上来看，这个开源MoE模型，已经在性能上“对齐海外领军闭源模型”。

DeepSeek V3 开源模型

阿里Qwen3系列模型惊艳亮相

qwen3/ · 试用地址：https://chat.qwen.ai/ 具体来讲，Qwen3系列模型有两款MoE

阿里 Qwen3 大模型

Deepseek-V2技术报告解读！全网最细！

深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。

Deepseek-V2 大模型

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

2.6 ViTPose+使用MoE机制扩展多数据集图2 ViTPose+中的FFN-MoE结构表5 ViTPose

ViTPose+Transformer 身体姿态

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

GLaM 被称为「通用语言模型」，是一个混合专家 (MoE) 模型，其中的参数是稀疏激活。

Transformer

元象首个多模态大模型 XVERSE-V 开源，刷新权威大模型榜单，支持任意宽高比输入

ensp; 商业合作微信添加：lixing_lixing 元象持续打造国内开源标杆，在国内最早开源最大参数65B、全球最早开源最长上下文256K以及国际前沿的MoE

XVERSE-V 多模态大模型

北大开源最强aiXcoder-7B代码大模型！聚焦真实开发场景，专为企业私有部署设计

aiXcoder团队透露，未来提供企业服务时，可以让多个7B模型形成MoE架构，组合成为一套解决方案来完成企业定制化服务。

aiXcoder-7B 大模型

Llama 3突然来袭！开源社区再次沸腾：GPT-4级别模型可以自由访问的时代到来

8B版本在这些任务上超越了Mistral和Gemma，70B版本则战胜了Gemini Pro和MoE架构的Mixtral，分别斩获相应规模的SOTA。

meta llama3

大模型微调经验汇总---LLM finetuning 踩坑经验之谈

MoE - 稀疏门控制的专家混合层，最近爆出 GPT4 是由8个220B 的模型组合。

大模型人工智能

llm-action：让天下没有难学的大模型

配套代码 HuggingFace PEFT LLM分布式训练并行技术近年来，随着Transformer、MOE

大模型 LLM

OpenAI视频模型Sora的推理生成成本多高？

， N 为模型参数量大小， D 为训练数据量大小： LLM 每 token 需要的计算量是 6 倍的模型大小基于一些"众所周知"的消息： GPT-4 是一个 MoE

Sora 推理算力

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

Minimax：集成Minimax模型，包括MoE模型abab6。

AI开源集合

李彦宏偏爱小模型｜AI光年

开发者大会上分享了基于大模型开发AI原生应用的三个思路：一、未来大型的AI原生应用基本都是MoE

李彦宏小模型

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

主要性能作者将Baichuan-Omni与最先进的专有多模态模型进行了比较，如Gemini 1.5 Pro，GPT-40，以及一系列具有竞争力的开源LLM和MLLM，如VITA，MAP-Neo，Qwen1.5

Baichuan-Omni 多模态大模型

<123 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1