AI魔法学院客服
马斯克履约开源Grok,超越Llama成全球最大开源模型,总参数量达到了3140亿
 2024-03-18
复制地址分享海报

本周一,马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok,这也兑现了他上周的开源承诺。截至目前,Grok 已经在 GitHub 上获得了 4.3k Star

开源地址:https://github.com/xai-org/grok-1

Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型,其中 25% 的权重来处理给定的标记。xAI  这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构,使用了 Apache-2.0 许可证。

根据介绍,Grok 的架构是在 2023 10 月使用自定义训练堆栈在 JAX Rust 上开发的,采用了创新的神经网络设计方法。

“该版本是 Grok-1 预训练阶段的原始基本模型检查点,该阶段于 2023 10 月宣告结束。这意味着该模型并未针对任何一种特定的应用(比如对话和交谈)进行了微调。”xAI 在博文里说道。

Grok-1是一个8x38BMoE架构模型,总参数量达到了3140亿。大家狂喜的时候也看看下面红框里的参数,314B 参数 Mixture-of-Experts 模型,其中 25% 的权重在给定令牌上处于活动状态。这个模型是一个基础模型,它还没有经过微调(finetuning)。模型中有8个专家,但只有2个被激活,这意味着在模型运行时,只有这2个专家是参与决策过程的。



CKPT权重文件内769tensor,下载也有价值,不必用628GBGPU内存或者8*H100的机器跑,日后必然有GGUF文件可供下载,你现在下载,至少日后自己量化时可以做做版本比较。也不能仅看上面这张测试图,毕竟,Grok的训练数据来自X更具独特性,也更加非结构化。Grok值不值得下,看你。



图片

马斯克果然如约用了一个(没?)让大家失望的千亿级开源大模型,占据了对“OpenAI”道德批判这个营销的点,和Altman一样,都是千年的狐狸唱聊斋。来吧,接着奏乐,接着舞。。。