文章列表-AI魔法学院

文章列表

大模型狂飙两年后，“六小龙”开始做减法

不同于预训练强调规模优先的Scaling Law，o1通过在推理阶段注入强化学习和思维链，打开了大模型在推理端的“能力上限”，这意味着国内的大模型企业可以模仿OpenAI，找到继续scale

AI 大模型

AI国力战争：GPU是明线，HBM是暗线

众所周知，大模型的智力涌现，依托于Scaling laws指导下的大力出奇迹，大模型对数据量和算力有着近乎无上限的需求，而算力的发动机GPU和存储池HBM，意外成为最大的受益者。

GPU HBM 大模型

图解大模型训练之：张量模型并行(TP)，Megatron-LM

7.3 GPU效率计算最后，在实验这块，咱们再来说说柱状图的weak scaling指标是怎么算出来的。

开源模型

大模型套壳祛魅：质疑套壳，理解套壳

直到 2020 年，OpenAI 发布一篇论文，首次提出了 Scaling Laws（尺度定律），NLP 的研究才正式进入大模型时代——大模型基于「大算力、大参数、大数据」，模型性能就会像摩尔定律一样持续提升

大模型套壳

一个产品经理的大模型观察、反思与预测

双向编码器表征模型） 2018年：OpenAI GPT（Generative Pre-trained Transformer / 生成式预训练转换器） Scaling

工作

必看！阿里通义千问完整技术报告

QWEN 还包括两种注意力机制：LogN-Scaling（Chiang＆Cholak，2022年；Su，2023a年）和窗口注意力（Beltagy等人，2020年）。

大型语言模型报告

【万字长文】LLaMA, ChatGLM, BLOOM的参数高效微调实践

Deepnet: Scaling transformers to 1,000 layers[J]. arXiv preprint arXiv:2203.00555, 2022. 10.

大模型微调训练

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

Scaling laws：描述了基于模型大小、数据集大小和用于训练的计算量预期的模型性能。

LLM 大模型 GitHub

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

· 2017 年关于 LSTM 的 MoE 论文 https://arxiv.org/abs/1701.06538 · 面向 MoE 的 Deepmind Scaling Laws

Transformer

大模型实践总结

高效微调技术目前存在的两个问题：相比全参数微调，高效微调技术目前存在的两个问题：推理速度会变慢模型精度会变差影响大模型性能的主要因素 OpenAI的论文Scaling

大模型训练

RAG检索增强技术在知识库智能检索场景下的应用实践

首先，在技术方面，RAG模型的Scaling Law规律需要进一步研究，以实现模型规模的有效控制和优化。

知识库 RAG检索增强

万字长文，AI大模型的应用实践总结

模型精度会变差 10 影响大模型性能的主要因素 OpenAI的论文Scaling Laws for Neural Language Models中列举了影响模型性能最大的三个因素：计算量

大模型

朱啸虎讲了一个中国现实主义AIGC故事

一股是技术信仰派，他们大多技术出身，认为应该像OpenAI一样信仰AGI、信仰scaling law（规模定律），思维更偏硅谷。

朱啸虎 AGI

国内外开源大语言模型一览表

100% RNN) language model, which is the only RNN (as of now) that can match transformers in quality and scaling

大模型

<1 23>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1