DeepSeek論文上新!下一代大模型實現“記憶分離”,V4不遠了?

繼去年底釋出一篇新論文後,1月12日晚,DeepSeek又上新了一篇論文,這次聚焦的是大模型的條件記憶模組,在結論中DeepSeek 認為,這將成為下一代稀疏大模型中不可或缺的核心建模原語論文

DeepSeek論文上新!下一代大模型實現“記憶分離”,V4不遠了?

此前有爆料稱DeepSeek下一代大模型V4將在春節前後釋出,結合這幾次研究,業內猜測這或許就是DeepSeek V4的研究路線圖論文

此次釋出的論文是DeepSeek與北京大學合作完成的,名稱為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(《基於條件查詢的條件記憶:大型語言模型稀疏性的新維度》),作者一列同樣有DeepSeek創始人梁文鋒的署名論文

這篇論文的核心觀察是,大模型包含兩種性質完全不同的任務,一種是需要深度動態計算的組合推理,另一種則是檢索靜態知識論文。而現有的Transformer架構缺乏原生的知識查詢機制,只能透過計算低效地模擬檢索過程。例如模型查詢不變的知識時,得浪費算力重新推導一遍,既費時間又佔資源。

為解決這一問題,DeepSeek團隊引入了條件記憶作為補充的稀疏性維度,並透過Engram這一條件記憶模組實現,最佳化神經計算(MoE)與靜態記憶(Engram)之間的權衡關係論文

團隊還發現了U型縮放定律,表明 MoE 專家和 Engram 記憶之間的混合稀疏容量分配嚴格優於純 MoE 基準模型論文。值得注意的是,儘管記憶模組直觀上有助於知識檢索,但團隊在通用推理、程式碼和數學領域觀察到了更為顯著的收益。

簡單來說,現在的MoE 模型處理推理和記固定知識用的是一套方法,效率較低且浪費算力,這篇論文字質是給大模型做了 “分工最佳化”:讓專門的模組幹專門的事,例如有“記憶本”管固定知識,而推理模組管複雜思考,再按最佳比例分配資源,最終讓模型又快又聰明論文

DeepSeek在論文最後表明,條件記憶將成為下一代稀疏模型不可或缺的建模原語論文。有行業人士猜測,此次提出的條件記憶或許就是下一代大模型DeepSeek V4的技術架構。

此前有報道稱,DeepSeek將於2月釋出新一代旗艦模型DeepSeek V4,且內部初步測試表明,V4在程式設計能力上超過了市場上的其他頂級模型論文。目前DeepSeek並未對此進行任何回應。報道也提及釋出計劃可能會根據實際情況進行調整。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://amp.sqhhba.com/post/4699.html

🌐 /