文章来源:
腾赚网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 wulanwray@foxmail.com 举报,一经查实,本站将立刻删除。
DeepSeek在2月18日于社交平台X发布了一篇关于NSA的技术报告。NSA是一种稀疏注意力机制,它与硬件匹配良好且可直接训练,适用于快速处理长文本的训练和推理。经过优化设计后,NSA不仅提高了推理速度,还减少了预训练成本,同时保持了性能优势。无论是在常规测试还是特定任务中,NSA的表现都可与完全注意力模型相媲美甚至更优。
民生证券指出,像DeepSeek这样的领先模型促进了AI应用的发展,使得算力需求从训练转向推理。随着微信等大型APP接入DeepSeek,国民级应用对算力的需求不断增长,这为算力行业带来了新的机遇。例如,青云科技已上线支持DeepSeek-R1系列模型的AI算力云服务;润建股份与希姆计算合作,推出了基于DeepSeek技术的全国产算力政务智能体一体机,构建了自主可控的算力生态。
抱歉,评论功能暂时关闭!