回看 DeepSeek 从 V3 到 V4 的这一年里,如何降低长上下文的开销一直是研究的一个重点。从 V3.2 开始,DeepSeek 引入了 DSA,直接把 V3.1 的价格降低了 50%。这个技术在 V4 中也得到了延续,并成为实现 1M 上下文的关键技术之一。这里会谈一下我对 DSA 思路的理解。

https://oilbeater.com/2026/06/12/deepseek-sparse-attention/
 
 
Back to Top