admin

597 posts published

用GRPO算法训练医疗AI模型
APPLICATION

用GRPO算法训练医疗AI模型

大型语言模型(LLMs)与医疗保健的交叉点带来了令人兴奋的机会,但也带来了独特的挑战。在本教程中,我们将探讨如何使用分组相对策略优化(GRPO)——一种最近由DeepSeek团队引入的有前途的新强化学习技术——来适应阿里巴巴的Qwen-3B模型以用于医学推理。 为什么这很重要: 🏥 患者安全第一:医学AI中的幻觉可能是危险的。💡 领域专业化:通用LLMs难以处理临床推理。⚡ 效率:我们的3B参数模型可以在消费级GPU上运行。推理模型如O3和DeepSeek R1在许多具有挑战性的基准测试中显示了前所未有的改进。它们改变了监督微调的趋势,转向实际的强化学习(RL)。我们在深度学习领域的许多突破都来自RL,例如AlphaGo,因为模型能够通过与不同的现实场景互动来学习,而这些场景在监督微调中往往难以提供示例。 DeepSeek R1在几个关键基准上的表现[1]。如果你想了解更多关于推理模型或更多历史细节,我强烈推荐Maarten的文章[2]。DeepSeek工作的美妙之处在于他们实现了一个实用的框架,用于使用GRPO对LLM进行微调。根据Maarten的文章: 这个算法背后的直觉是,它使所有导致正确或错误答案的选择更可能或更不可能。这些选择可以是令牌集也可以是推理步骤。正如下面的图片所示:目标是激励模型生成响应,使其在正确的*和*块中以及我们能够轻松验证的最终正确答案中都能产生良好的结果(如数学问题)。 DeepSeek-R1-Zero使用的RL管道[2]好了,背景知识就到这里,让我们开始动手吧。本文使用的代码作为colab笔记本提供,你可以轻松地使用T4免费资源运行。