文章来源:
腾赚网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 wulanwray@foxmail.com 举报,一经查实,本站将立刻删除。
中国人工智能公司DeepSeek发布新模型DeepSeek-V3-0324,参数达6850亿,在Hugging Face低调上线却引发轰动。这款开源模型取得MIT许可证,可免费用于商业,且能在消费级硬件如苹果Mac Studio上运行。研究员发现,它在M3 Ultra芯片的苹果电脑上运行速度可达每秒20个token,打破大模型需依赖数据中心的共识。内部测试显示,新模型各项指标大幅提升,超越甲骨文的Claude Sonnet 3.5,成为最佳非推理模型。
DeepSeek重新设计了大语言模型运作方式,仅激活约370亿参数的“专家”模块,降低计算需求。同时引入多头潜在注意力和多标记预测技术,将输出速度提升近80%。这种创新体现中国AI行业追求高效利用资源的精神,以有限算力实现更优性能。新模型不仅降低大模型能耗与成本,还推动国内AI快速发展。有观点认为,其4月将发布的R2模型可能挑战OpenAI的GPT-5,中美AI不同发展路径或迎直接较量。
抱歉,评论功能暂时关闭!