MODEL-ZOO

DeepSeek GRPO vs. OpenAI RLHF

DeepSeek使用简单的强化学习（GRPO）来训练像 DeepSeek-R1 这样的 LLM，本文将尝试了解GRPO与OpenAI使用的RLHF强化学习有何不同。

admin

Feb 6, 2025 • 6 min read

DeepSeek-R1 论文让整个 AI 社区都为之振奋。据说这是一篇革命性的论文，可能会在“注意力就是你所需要的一切”的传统中找到自己的位置。

1、为什么 DeepSeek-R1 论文如此重要？

它引入了一个新颖的想法，即使用简单的“强化学习”来训练像 DeepSeek-R1 这样的 LLM。

没有什么花哨的，只是普通的 RL。

但是等等，即使是其他 LLM 也以某种方式使用强化学习。对吧？

是的，即使是 OpenAI 或 Meta 的 LLM 也使用了一种强化学习形式，但不是 DeepSeek-R1 使用的简单强化学习。

在这篇文章中，我们将尝试了解这两种模型使用的强化学习有何不同

2、RLHF（OpenAI 和其他 LLM）

从人类反馈中进行强化学习 (RLHF) 是一种用于训练大型语言模型 (LLM)（例如由 OpenAI 开发的模型）的复杂技术。它涉及一个迭代过程，其中不断收集和利用人类反馈来提高模型的性能。以下是基于搜索结果中的信息，详细说明了如何使用 RLHF 进行 LLM 训练：

初始阶段：该过程从选择预训练模型作为主要 LLM 开始。这个初始模型作为基础，有助于确定和标记正确的行为。预训练模型总体上需要较少的训练数据，从而可以更快地进行训练。
人工反馈：在训练初始模型后，人工评估员使用各种指标评估其性能。这些评估器提供的分数表明模型生成的输出的质量或准确性。然后，AI 系统使用此反馈来创建强化学习的奖励系统。
奖励建模：使用人类反馈训练一个单独的模型，称为奖励模型。该模型根据感知到的不同输出的质量对其进行排名。奖励模型通过将响应与更高的奖励相关联，本质上教会主模型哪些响应更可取。
强化学习：然后使用奖励模型的输出对主模型进行微调。它从奖励模型获得质量分数，并使用该分数来提高其在未来任务中的表现。此过程涉及主模型尝试最大化其收到的累积奖励信号，从而学习生成更好的输出。
迭代改进：RLHF 是一个持续的过程，模型从人类的反应和反馈中学习。这种人类知识与机器学习的结合会随着时间的推移产生更准确、更高效的结果。

2.1 RLHF 的优势

RLHF 对于提高 LLM 的相关性和准确性特别有益，尤其是在 Google 的 Bard 和 ChatGPT 等聊天机器人中。它可以帮助这些模型更好地理解用户意图并生成更自然、更符合上下文的响应。该技术在减少生成式 AI 中的错误方面也发挥着至关重要的作用，确保模型避免生成有害内容。

2.2 RLHF 问题

然而，RLHF 也带来了一些挑战，例如收集人类反馈的成本、人类评估的主观性以及模型可能想出欺骗人类专家或绕过他们的反馈的方法。尽管存在这些挑战，RLHF 仍然是训练生成式 AI 的重要技术，可以更准确、更安全地与人类互动。

使用 GRPO 算法的更简单的强化学习来了。

3、更简单的 RL，GRPO（DeepSeek-R1）

我已经在之前的教程中相当深入地解释了强化学习如何在 DeepSeek-R1 的训练中使用。

但是，这篇文章的主要目的是强调 RLHF 和 GRPO 算法之间的差异。

4、RLHF vs. GRPO

目标：

OpenAI (RLHF)：主要目标是使 AI 模型与人类偏好保持一致。这涉及训练模型以符合人类价值观和期望的方式理解和响应。
DeepSeek（更简单的 RL）：重点是针对特定任务的指标进行优化。这意味着模型经过训练可以在特定任务上表现良好，从而最大限度地提高这些特定领域的性能。

范围

OpenAI (RLHF)：该方法广泛且通用，旨在在广泛的应用和场景中进行协调。
DeepSeek（更简单的 RL）：范围狭窄且针对特定任务，针对特定任务而不是一般用途优化模型。

复杂性

OpenAI (RLHF)：这种方法很复杂，需要人工反馈、奖励建模和高级 RL 技术。它涉及一个更复杂的过程，以确保模型的响应符合人类的偏好。
DeepSeek（更简单的 RL）：复杂度较低，利用轻量级、以任务为中心的 RL。这种方法更直接并针对特定任务进行了简化。

资源要求

OpenAI (RLHF)：资源要求很高，因为该过程在计算上很昂贵。它需要大量的计算能力和资源来实施和维护。
DeepSeek（更简单的 RL）：该方法对资源的要求很低，因此高效且具有成本效益。它旨在更易于访问和部署。

用例

OpenAI (RLHF)：用例是通用 AI，例如 ChatGPT，其中模型需要以自然且符合人类期望的方式与用户交互。
DeepSeek（更简单的 RL）：用例是行业特定的应用程序，其中模型经过定制以在特定领域或特定任务中发挥最佳性能。

5、结束语

总之，OpenAI 的 RLHF 是一种复杂、资源密集型的方法，旨在创建与广泛应用中的人类偏好紧密结合的 AI 模型。它非常适合需要自然直观地与人类互动的通用 AI。另一方面，DeepSeek 更简单的 RL 是一种更有针对性、更高效的方法，旨在优化特定行业内特定任务的性能。它不太复杂，更具成本效益，使其成为希望在特定领域部署 AI 解决方案的组织的实用选择。

原文链接：RLHF (OpenAI) vs Simple RL (DeepSeek)

汇智网翻译整理，转载请标明出处