【
智慧城市網 企業關注】3 月 24 日深夜,DeepSeek 悄然上線 V3 模型的升級版本 DeepSeek-V3-0324,并非市場此前一直期待的DeepSeek-V4或R2。目前,其開源版本已上線Hugging Face。此次升級不僅參數規模躍升至6850億,更在代碼生成、數學推理、硬件適配等維度實現突破。
同日,DeepSeek在其官方交流群宣布稱,DeepSeek V3模型已完成小版本升級,歡迎前往官方網頁、App、小程序試用體驗(關閉深度思考),API接口和使用方式保持不變。
技術突破:6850 億參數 MoE 架構再進化
作為去年12月發布的初代V3模型的迭代版本,V3-0324延續了“極致性價比”的技術路線。通過FP8精度訓練與動態專家路由機制,計算效率提升100%;新增的偏差項負載均衡技術,有效解決了傳統MoE模型的專家過載問題。在保持6850億參數量級的同時,激活參數規模控制在370億,推理速度較前代提升1.8倍。
開發者社區實測顯示,V3-0324 在復雜場景下的代碼生成能力已接近 Claude 3.7 Sonnet 水平。例如,處理多線程異步任務時,模型能自動生成符合工程規范的代碼結構,并主動標注潛在性能優化點;生成動態天氣卡片動畫時,其代碼邏輯完整性與實現效果與閉源模型難分伯仲。
性能躍遷:從代碼到數學的全面突破
此次升級在編碼領域的提升尤為顯著。開發者僅需簡單文本提示,即可快速生成包含響應式布局、CSS 動畫和 JavaScript 交互的完整網站代碼。數學推理能力同步躍升。V3-0324 在 AIME 2025 競賽題中展現出類似專業推理模型的解題邏輯,甚至能識別推理循環并自主回溯修正。
有網友表示,經過自己的測試,DeepSeek-V3-0324 在數學推理和前端開發方面的表現優于 Claude 3.5 和 Claude 3.7 Sonnet。
開發者生態:開源協議與工具鏈全面升級
此前于2024年12月發布的DeepSeek-V3模型曾以“557.6萬美金比肩Claude 3.5效果”的高性價比著稱,其多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
DeepSeek 延續開源戰略,將 V3-0324 的開源協議升級為與 R1 一致的 MIT 許可,允許模型蒸餾、商用等行為。權重文件已火速上線 Hugging Face,688GB 的存儲規模與初代 V3 保持一致。
蘋果機器學習工程師、AI 研究員 Awni Hannun 在社交媒體 X 上表示:“4 位量化后的 DeepSeek-V3-0324,在搭載 mlx-lm 的 512GB M3 Ultra 上,推理速度可達每秒 20 個 token!”
此外,用戶可通過關閉 "深度思考" 功能獲取更快響應,適合簡單問答或代碼片段生成;保留的深度思考模式則針對復雜任務提供詳盡解析。
但截至目前,還沒有任何關于新版 DeepSeek-V3的能力基準測試榜單出現。
盡管V3-0324并非推理模型,但其展現出的邏輯推理能力已接近部分閉源產品。社區普遍認為,此次升級可能是DeepSeek-R2的技術預演。隨著開源生態的不斷完善,DeepSeek正以“極致性價比+靈活開源策略”挑戰閉源模型的統治地位,或將加速AI從“玩具”向“全民生產力工具”的轉變。
版權與免責聲明:
凡本網注明“來源:智慧城市網”的所有作品,均為浙江興旺寶明通網絡有限公司-智慧城市網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智慧城市網”。違反上述聲明者,本網將追究其相關法律責任。
本網轉載并注明自其它來源(非智慧城市網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。