MODEL-ZOO DeepSeek GRPO vs. OpenAI RLHF DeepSeek使用简单的强化学习(GRPO)来训练像 DeepSeek-R1 这样的 LLM,本文将尝试了解GRPO与OpenAI使用的RLHF强化学习有何不同。
LIBRARY DeepSeek GRPO Trainer简明教程 GRPO 是一种在线学习算法,这意味着它通过在训练期间使用训练模型本身生成的数据来迭代改进。GRPO 目标背后的直觉是最大化生成的完成的优势,同时确保模型接近参考策略。
MODEL-ZOO 蒸馏DeepSeek-R1到自己的模型 在本博客中,我们将介绍如何使用LoRA等技术将 DeepSeek-R1 的推理能力蒸馏到较小的模型(如 Microsoft 的 Phi-3-Mini)中。
MODEL-ZOO DeepSeek-R1本地运行成本 DeepSeek 将这场生成竞赛提升到了另一个水平,人们甚至准备在本地运行 671B 参数。但在本地运行如此庞大的模型可不是开玩笑;你需要在硬件方面取得一些重大进步,才能尝试推理。
MODEL-ZOO DeepSeek-R1 671B本地运行指南 原始的 DeepSeek R1 是一个 6710 亿参数的语言模型,由 Unsloth AI 团队进行了动态量化,大小减少了 80%(从 720 GB 减少到 131 GB),同时保持了强大的性能。
MODEL-ZOO OpenAI o3-mini vs. DeepSeek R1 DeepSeek 发布 R1 后,我承认我给了 OpenAI 很多批评。从极其昂贵的价格到完全搞砸的 Operator,再到发布一个缓慢、无法使用的伪装成 AI 代理的玩具,OpenAI 在 1 月份已经遭受了很多失败。
MODEL-ZOO 用Kokoro TTS制作AI配音 如果我告诉你,现在可以完全免费使用一种不仅好而且可能比 ElevenLabs 等行业领先(且昂贵)服务更好的工具来创建专业品质的 AI 配音,你会怎么想?听起来好得令人难以置信?
MODEL-ZOO DeepSeek R1-Zero & R1分析 借助 DeepSeek 最新发表的研究,我们可以更好地进行推测。关键见解是,LLM 推理系统更高程度的新颖性适应性(和可靠性)是在三个维度上实现的。
APPLICATION VS Code集成DeepSeek-R1 在使用 Cursor 等付费AI助手等工具无数小时后,我发现了一个改变游戏规则的功能:将DeepSeek-R1与 Visual Studio Code 无缝、免费的集成,增强了我的工作流程。
APPLICATION DeepSeek R1驱动的简历自动分析 本文深入探讨了通过 Together.ai 平台集成 DeepSeek R1 以创建 Resume Roaster 的过程——一种用于详细简历审查的 AI 驱动工具。
MODEL-ZOO Google Colab运行DeepSeek R1 最近我在测试本地运行DeepSeek R1,但CPU温度太高了。我的朋友说你为什么不使用 Google Colab?因为它为你提供了一个 免费GPU。