文章列表-AI魔法学院

文章列表

领域大模型LLM训练Trick

答：如果仅仅使用领域数据集进行模型训练，模型很容易出现灾难性遗忘现象，为了解决这个问题通常在领域训练的过程中加入通用数据集。

垂直训练大模型

领域大模型-训练Trick&落地思考

如果仅用领域数据进行模型训练，模型很容易出现灾难性遗忘现象，通常在领域训练过程中加入通用数据。

垂直训练大模型

如何使用 Megatron-LM 训练语言模型

在 PyTorch 中训练大语言模型不仅仅是写一个训练循环这么简单。

开源模型

大模型训练工程那些事

预训练、继续预训练、对齐(SFT、RLHF) 这些流程和术语对大家来说应该并不陌生。

训练工程大模型

免训练！单图秒级别生成AI写真，人像生成进入无需训练的单阶段时代

这一创新版本摒弃了传统的人物模型训练过程，能够直接生成 zero-shot 目标人像，引领 AI 人像生成进入了无需训练的单阶段时代。

FaceChain FACT 文生图

使用自己的数据训练清华ChatGLM2-6B 模型

解开这里的注释： image-20230805174737559 训练P-Tuning v2 运行以下指令进行训练： .

ChatGLM2-6B

大模型训练为什么用A100不用4090

大模型训练为什么不能用 4090 GPU 训练性能和成本对比 LambdaLabs 有个很好的 GPU 单机训练性能和成本对比，在此摘录如下。

大模型

视频大模型训练相关词条解释

Sora采用Diffusion Transformer (DiT)架构进行训练。

视频生成 sora 词条

预训练对话大模型深度解读

其实它只是一个数学模型，它强大的原因是：用到的计算量很大、数据量很大、训练语言模型的方法比以前好。

大规模训练系列之技术挑战

0 前言本次分享是大规模训练技术系列的第一篇，主要包括两个部分： · 大规模训练技术的意义 · 大规模训练的技术挑战 1 大规模训练技术的意义 1.1 训练的精度极限

开源模型

HAI-Chat：高效且轻量的一键式 RLHF 训练工具

幻方x深度求索在萤火智算集群上进行大量的 RLHF 训练实践，研发优化了一套轻量的 PPO 训练工具，名叫 HAI-Chat。

HAI-Chat RLHF

来自Microsoft Build 2023：大语言模型是如何被训练出来的

本场汇报共40多分钟，包含2个方面，一个是如何训练出GPT这样的大语言模型，里面包含了大语言模型的训练过程以及相关的技术，虽然是一种high-level的讲解，但是对于理解ChatGPT的训练十分有用。

大模型

一文读懂GPT-1：生成式预训练如何提升语言理解

GPT-1首先利用大量未标注文本进行预训练，然后针对特定任务进行有监督的微调。

GPT

Prompt工程如此强大，我们还需要模型训练吗？

3.如果我们还需要模型训练，例如在GPT3基础上把21年以后的数据喂进去，其中学到的新信息与

大模型

图解大模型训练之：张量模型并行(TP)，Megatron-LM

今天我们将要介绍最重要，也是目前基于Transformer做大模型预训练最基本的并行范式：来自NVIDIA的张量模型并行(TP)。

开源模型

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1