【[77星]Caldera:用低精度和低秩分解技术压缩大型语言模型,让大模型也能“瘦身”!亮点:1. 在少于2.5比特/参数的极致压缩下,性能超越现有技术;2. 支持低秩适应性微调,针对特定任务进一步优化;3. 灵活的精度设置,可针对不同组件调整量化精度】
'CALDERA is a post-training compression method that represents the weights of LLM matrices via a low-rank, low-precision decomposition'
GitHub: github.com/pilancilab/caldera