【Guide-GRPO:旨在通过优化语言模型中的指令Token在推理链中,实现在

爱生活爱珂珂 2025-02-25 13:23:22

【Guide-GRPO:旨在通过优化语言模型中的指令Token在推理链中,实现在消费级显卡上的内存高效训练(需 24GB VRAM)。核心价值在于通过引导词优化推理链条,提升模型的连贯性和准确性。亮点:1. 仅需24GB显存,普通显卡就能训练;2. 三阶段生成策略,精准把控推理过程;3. 初步实验结果表现优异,未来可期!】

'Guide-GRPO: LLM Reasoning Enhancement Inspired by DeepSeek'

GitHub: github.com/cnsdqd-dyb/Guide-GRPO

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注