StateSMix

2天前发布 4 0 0

StateSMix 是一个完全自包含的在线无损压缩器。它不依赖任何预训练大模型，也不需GPU，直接在CPU上边读取数据边训练模型，实时生成压缩流。

收录时间：

2026-06-13

打开网站手机查看

StateSMix

打开网站

StateSMix由开发者Roberto Tacconelli打造。它将Mamba State Space Model（SSM） 与稀疏N-gram上下文混合 相结合，实现了真正在线训练、无需GPU、无预训练权重 的无损压缩方案，在中小文件上表现亮眼，值得所有对压缩算法、神经网络压缩感兴趣的朋友关注。

StateSMix 网站截图

什么是StateSMix？

StateSMix 是一个完全自包含的在线无损压缩器。它不依赖任何预训练大模型，也不需GPU，直接在CPU上边读取数据边训练模型，实时生成压缩流。核心创新在于：

Mamba SSM作为核心引擎：采用Mamba风格的状态空间模型（DM=32, DS=16, DI=64, NL=2），参数量仅约12万。在线使用Adam优化器训练，能有效捕捉长程依赖，为预测提供强大的基础分布。
稀疏N-gram Logit Bias：从bigram一直到32-gram的多阶N-gram表，通过softmax不变的稀疏logit偏置方式与SSM输出融合。N-gram擅长捕捉重复模式（如文章模板、引用格式），与SSM形成完美互补。
算术编码（Arithmetic Coding）：采用32位范围编码器，实现高效熵编码。

整个系统使用GPT-NeoX风格的BPE分词器（约49k词表），代码纯C语言实现，支持AVX2/FMA加速和OpenMP并行。

实测性能如何？

在经典基准enwik8（Wikipedia文本）上的表现非常亮眼：

1MB：2.123 bpb，比 xz -9e 好 8.7%
3MB：2.149 bpb，比 xz -9e 好 5.4%
10MB：2.162 bpb，比 xz -9e 好 0.7%
100MB：2.130 bpb，略落后于 xz，但仍是极具特色的在线神经压缩方案

消融实验显示：SSM是绝对主力（单独使用已能超越xz），N-gram在其上再提供约4%的额外提升，长程32-gram对重复结构特别有效。

与其他方案对比，StateSMix 是唯一一个真正在线、无GPU、无预训练权重 的神经压缩器，同时在中小文件上击败传统强力工具 xz。这在强调“实用性”和“轻量部署”的场景中非常有价值。

项目亮点与适用场景

极致轻量：无需外部依赖，编译简单（一条 make 命令），适合嵌入式或资源受限环境。
完全开源：Apache 2.0 协议，附带详细架构文档和论文（arXiv:2605.02904）。
可玩性高：压缩/解压/验证命令简单：
- 压缩：./ssm_best_version2 c input output.ssm
- 解压：./ssm_best_version2 d output.ssm recovered
研究价值：为“在线神经压缩”提供了全新思路，证明了Mamba在压缩任务上的潜力。

内存占用约6GB（主要来自N-gram哈希表），处理100MB数据约需4小时，速度在CPU上约700KB/s，适合离线备份、日志压缩等场景。

总结与推荐

StateSMix 不是要取代PAQ、CMIX这类顶级混合器，而是开辟了一条轻量在线神经压缩的新路径。它用极小的参数量和纯CPU实现了超越传统工具的压缩率，充分展示了Mamba SSM在序列建模上的高效性。

如果你是：

压缩算法研究者
对Mamba、State Space Model感兴趣的同学
需要轻量、无依赖压缩方案的开发者

暂无评论

暂无评论...