Qwen3.6-35B-A3B 剪枝实战:在单卡 RTX 5090 上把 MoE 压缩到极限的七轮实验
2026-05-18
七轮 REAP 剪枝实验在一张消费级 GPU 上压缩 256 专家 MoE 模型的经验记录。核心发现:标定数据组成远比剪枝算法本身重要;面向 agentic 的标定无法提升容量受限的 agentic 基准;正确的配方配合合适的压缩深度,能在不改变参数量前提下将 BugFind 提升 17 分。
expert-pruningREAPRTX5090Qwen标定数据4-bit-unbatchingagentic-benchmarksbenchlocal中文