DeepSeek发布NSA技术报告，优化长文本处理

腾赚网 2025年02月20日 09:01 57 0

DeepSeek在2月18日于社交平台X发布了一篇关于NSA的技术报告。NSA是一种稀疏注意力机制，它与硬件匹配良好且可直接训练，适用于快速处理长文本的训练和推理。经过优化设计后，NSA不仅提高了推理速度，还减少了预训练成本，同时保持了性能优势。无论是在常规测试还是特定任务中，NSA的表现都可与完全注意力模型相媲美甚至更优。

民生证券指出，像DeepSeek这样的领先模型促进了AI应用的发展，使得算力需求从训练转向推理。随着微信等大型APP接入DeepSeek，国民级应用对算力的需求不断增长，这为算力行业带来了新的机遇。例如，青云科技已上线支持DeepSeek-R1系列模型的AI算力云服务；润建股份与希姆计算合作，推出了基于DeepSeek技术的全国产算力政务智能体一体机，构建了自主可控的算力生态。

本文地址： https://www.tengzhuan.com/post/738401.html

文章来源：腾赚网