DeepSeek发布NSA技术报告,优化长文本处理

腾赚网 54 0

DeepSeek在2月18日于社交平台X发布了一篇关于NSA的技术报告。NSA是一种稀疏注意力机制,它与硬件匹配良好且可直接训练,适用于快速处理长文本的训练和推理。经过优化设计后,NSA不仅提高了推理速度,还减少了预训练成本,同时保持了性能优势。无论是在常规测试还是特定任务中,NSA的表现都可与完全注意力模型相媲美甚至更优。

民生证券指出,像DeepSeek这样的领先模型促进了AI应用的发展,使得算力需求从训练转向推理。随着微信等大型APP接入DeepSeek,国民级应用对算力的需求不断增长,这为算力行业带来了新的机遇。例如,青云科技已上线支持DeepSeek-R1系列模型的AI算力云服务;润建股份与希姆计算合作,推出了基于DeepSeek技术的全国产算力政务智能体一体机,构建了自主可控的算力生态。

抱歉,评论功能暂时关闭!