文章列表-AI魔法学院

文章列表

详解大模型RLHF过程（配代码解读）

同时RLHF是什么也会再详细介绍，相关文章已经很多了。

训练

RLHF 在 Text2SQL 领域中的探索

本文主要介绍了 Text2SQL 的基本概念，以及 RLHF 的概念和框架，最后结合 DB-GPT-Hub 项目，将 RLHF 方法应用于 Text2SQL 任务进行实践探索。

Text2SQL RLHF

HAI-Chat：高效且轻量的一键式 RLHF 训练工具

构建有益、真实和无害行为的 LLMs，目前首选方案是基于人类反馈的强化学习（RLHF）。

HAI-Chat RLHF

大语言模型的拐杖——RLHF基于人类反馈的强化学习

什么是RLHF？

大模型训练

准备迎接超级人工智能系统，OpenAI宣布RLHF即将终结！超级对齐技术将接任RLHF，保证超级人工智能系统遵循人类的意志

RLHF技术及其问题 RLHF面临超人类AI系统可能是不行的为什么要做弱AI监督引导强AI 超级对齐超级对齐的实验总结

OpenAI 人工智能

最透彻的大模型PPO原理和源码解读

希望可以帮助大家更具象地感受RLHF的训练流程。

PPO 大模型源码解读

llm-action：让天下没有难学的大模型

从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。

大模型 LLM

【大模型微调】 Llama 2 ：对话模型的全过程微调

在RLHF（V4）之后，他们逐步将拒绝抽样和 PPO 微调结合在一起。

大模型

来自Microsoft Build 2023：大语言模型是如何被训练出来的

为什么有了SFT模型还要做RLHF？

大模型

国内外开源大语言模型一览表

RLHF 的完整工作流程，仔细剖析了 RLHF 中的强化学习 PPO 算法的内部工作原理以及它在整个 RLHF 中的作用，并研究各种优化方法如何影响训练过程。

大模型

活久见，世界上第一个被人类骗走钱的AI，刚刚出现了！

另外，在某些网友的概念里，RLHF是可以创造出超越人类水平的成果的。

Freysa 智能体

一文讲明白什么是预训练、微调和上下文学习

基于人类反馈的强化学习(Reinforcement Learning from Human Feedback) RLHF使用人类反馈来训练LLM。

大模型训练

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

参考资料： LLMDataHub - by Junhao Zhao：预训练、微调和RLHF策划的数据集列表。

LLM 大模型 GitHub

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

同时还介绍了 RLHF、CAI、Minerva 等预训练后处理技术以及超参。

Transformer

必看！阿里通义千问完整技术报告

然后，我们使用SFT和RLHF来调整QWEN以符合人类偏好，因此我们有了QWEN-CHAT，特别是其改进版本QWEN-CHAT-RLHF。

大型语言模型报告

<12 3 4 5 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1