【Guide-GRPO:旨在通过优化语言模型中的指令Token在推理链中,实现在消费级显卡上的内存高效训练(需 24GB VRAM)。核心价值在于通过引导词优化推理链条,提升模型的连贯性和准确性。亮点:1. 仅需24GB显存,普通显卡就能训练;2. 三阶段生成策略,精准把控推理过程;3. 初步实验结果表现优异,未来可期!】
'Guide-GRPO: LLM Reasoning Enhancement Inspired by DeepSeek'
GitHub: github.com/cnsdqd-dyb/Guide-GRPO