
StateSMix由开发者Roberto Tacconelli打造。它将Mamba State Space Model(SSM) 与稀疏N-gram上下文混合 相结合,实现了真正在线训练、无需GPU、无预训练权重 的无损压缩方案,在中小文件上表现亮眼,值得所有对压缩算法、神经网络压缩感兴趣的朋友关注。

StateSMix 网站截图
什么是StateSMix?
StateSMix 是一个完全自包含的在线无损压缩器。它不依赖任何预训练大模型,也不需GPU,直接在CPU上边读取数据边训练模型,实时生成压缩流。核心创新在于:
- Mamba SSM作为核心引擎:采用Mamba风格的状态空间模型(DM=32, DS=16, DI=64, NL=2),参数量仅约12万。在线使用Adam优化器训练,能有效捕捉长程依赖,为预测提供强大的基础分布。
- 稀疏N-gram Logit Bias:从bigram一直到32-gram的多阶N-gram表,通过softmax不变的稀疏logit偏置方式与SSM输出融合。N-gram擅长捕捉重复模式(如文章模板、引用格式),与SSM形成完美互补。
- 算术编码(Arithmetic Coding):采用32位范围编码器,实现高效熵编码。
整个系统使用GPT-NeoX风格的BPE分词器(约49k词表),代码纯C语言实现,支持AVX2/FMA加速和OpenMP并行。
实测性能如何?
在经典基准enwik8(Wikipedia文本)上的表现非常亮眼:
- 1MB:2.123 bpb,比 xz -9e 好 8.7%
- 3MB:2.149 bpb,比 xz -9e 好 5.4%
- 10MB:2.162 bpb,比 xz -9e 好 0.7%
- 100MB:2.130 bpb,略落后于 xz,但仍是极具特色的在线神经压缩方案
消融实验显示:SSM是绝对主力(单独使用已能超越xz),N-gram在其上再提供约4%的额外提升,长程32-gram对重复结构特别有效。
与其他方案对比,StateSMix 是唯一一个真正在线、无GPU、无预训练权重 的神经压缩器,同时在中小文件上击败传统强力工具 xz。这在强调“实用性”和“轻量部署”的场景中非常有价值。
项目亮点与适用场景
- 极致轻量:无需外部依赖,编译简单(一条 make 命令),适合嵌入式或资源受限环境。
- 完全开源:Apache 2.0 协议,附带详细架构文档和论文(arXiv:2605.02904)。
- 可玩性高:压缩/解压/验证命令简单:
- 压缩:./ssm_best_version2 c input output.ssm
- 解压:./ssm_best_version2 d output.ssm recovered
- 研究价值:为“在线神经压缩”提供了全新思路,证明了Mamba在压缩任务上的潜力。
内存占用约6GB(主要来自N-gram哈希表),处理100MB数据约需4小时,速度在CPU上约700KB/s,适合离线备份、日志压缩等场景。
总结与推荐
StateSMix 不是要取代PAQ、CMIX这类顶级混合器,而是开辟了一条轻量在线神经压缩的新路径。它用极小的参数量和纯CPU实现了超越传统工具的压缩率,充分展示了Mamba SSM在序列建模上的高效性。
如果你是:
- 压缩算法研究者
- 对Mamba、State Space Model感兴趣的同学
- 需要轻量、无依赖压缩方案的开发者
相关导航


TinyFish Bigset
SparkIcon AI

JoyPix AI

seaart ai

wps ai

Zed AI






