文章列表-AI魔法学院

文章列表

大模型套壳祛魅：质疑套壳，理解套壳

微调通常分为两个步骤——SFT（有监督微调）+RLHF（人类反馈强化学习），其中 RLHF是 OpenAI 的创新设计，它决定了模型能够与人类意图与价值观对齐，是训练一个可靠的对话模型不可或缺的环节。

大模型套壳

HalluQA: 测测中文大模型有没有一本正经胡说八道

这类问题往往是SFT或者RLHF容易被忽视的问题，因为这些问题本身可能存在矛盾，不像是通常会出现的用户Query（例如“弱智吧”问题之类的段子），因此很容易在alignment阶段被忽视。

大模型中文大模型幻觉

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

这里需要指出后续RLHF也很重要，我罗列在这里，抛砖引玉。

大模型

大模型实践总结

大模型实践文章下面是最近大模型实践过程中的一些文章，配套代码放置在GitHub：llm-action LLM训练: LLM 预训练/微调/RLHF

大模型训练

人话聊AI大模型：AIGC如何助力营销的秘密（上）

此外，Stability.AI还发布了基于RLHF的开源LLM聊天机器人——StableVicuna。

大模型

2023年LLM如何入门？请看这篇综述！

2.3 RLHF（reinforcement learning from human feedback）三阶段 RLHF是使用强化学习算法来对模型进行微调，以使其更好地适应特定的任务或应用场景。

大模型

通俗解读大模型微调(Fine Tuning)

一个是监督式微调SFT(Supervised Fine Tuning) ，这个方案主要是用人工标注的数据，用传统机器学习中监督学习的方法，对大模型进行微调；一个是基于人类反馈的强化学习微调RLHF

大模型微调

吴恩达Prompt教程之总结图解

首先需要从大量文本数据中训练处一个Base LLM，随后使用指令和比较好的输入输出去进一步训练（微调、优化）LLM，在训练过程中，输入和输出都是作为指令给到LLM，要求Base LLM去遵循这些指令，然后，使用RLHF

prompt 教程吴恩达

RAG 修炼手册｜一文讲透 RAG 背后的技术

这强大的功能背后，是从人类反馈中强化学习（Reinforcement Learning from Human Feedback，RLHF）等技术的支持，通过这些技术使得它和人类的对话更让人满意

RAG Embedding

刚刚，智谱一口气开源6款模型，200 tokens/秒解锁商用速度之最 | 免费

此外，它还通过引入基于对战排序反馈的通用强化学习（RLHF），模型的泛化能力得到进一步强化。

GLM模型智谱

自动优化Prompt：Automatic Prompt Engineering的3种方法

以第三点为例，读者可以根据用户的反馈数据，训练一个reward model作为评价者，运行automatic prompt engineering框架，优化现有的Prompt，这一点和RLHF有异曲同工之处

prompt 大模型

Meta无限长文本大模型来了：参数仅7B，已开源

与 Vicuna 相比，MEGALODON 在 MT-Bench 上表现出优越的性能，并且与 LLAMA2-Chat 相当，而后者利用 RLHF 进行了进一步的对齐微调。

Meta 长文本大模型

NEFTune：在Embedding中加入噪⾳提⾼指令微调效果！

这个模型已经经过了⼴泛的调优，使⽤了多轮的RLHF。

NEFTune 大语言模型

预训练对话大模型深度解读

基于人类反馈的强化学习（RLHF）从人类反馈中学习通过人来的偏好训练奖励模型，使用PPO算法优化策略模型（即生成模型）将模型的输出结果对齐至人类偏好

金融行业的开源AI大模型

FinGPT提供了多种数据集和多任务金融LLM模型，用于情感分析、金融关系提取和问答等任务，并能够有效、低成本地适应金融领域的动态变化，并利用“人类反馈强化学习（RLHF）”技术进行个性化学习。

开源大模型

<1 234 5 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1