DeepSeek V4下周上線？原生多模態(tài)架構(gòu) 技術(shù)報告同步開放

原創(chuàng)

2026-03-01 14:56 星期日

科創(chuàng)板日報宋子喬

①這或是一款具備圖片、視頻和文本生成功能的多模態(tài)模型；
②DeepSeek為國產(chǎn)算力提供深度支持；
③DeepSeek將在V4發(fā)布時同步放出一份簡短的技術(shù)說明。

《科創(chuàng)板日報》3月1日訊（編輯宋子喬） 當(dāng)?shù)貢r間2月28日，據(jù)金融時報報道，DeepSeek將于下周發(fā)布其最新的大模型V4。

據(jù)兩位知情人士透露，這是一款具備圖片、視頻和文本生成功能的多模態(tài)模型。在硬件適配方面，DeepSeek為國產(chǎn)算力提供深度支持，DeepSeek致力于優(yōu)化V4模型以適配中國制造的芯片，此舉有望提振中國市場對其半導(dǎo)體產(chǎn)品的需求，并加速AI模型“推理”環(huán)節(jié)靠攏本土芯片。

據(jù)一位直接了解相關(guān)計劃的人士透露，DeepSeek預(yù)計在發(fā)布V4版本的同時，發(fā)布一份篇幅較短的技術(shù)說明，并在大約一個月后發(fā)布一份更全面的報告。

V4會有哪些亮點(diǎn)？

截至發(fā)稿，DeepSeek官方尚未對V4的任何信息進(jìn)行正式回應(yīng)或確認(rèn)，所有信息均來媒體爆料，詳細(xì)信息多集中在正在進(jìn)行秘密測試的簡化版本V4 Lite（精簡版）上。據(jù)《科創(chuàng)板日報》綜合的消息，關(guān)于V4 Lite：

其代號為“sealion-lite”，擁有100萬（1M）個tokens的上下文窗口，相比V3系列的128K有近8倍提升，理論上可一次處理如《三體》全集體量的長文本；

為原生多模態(tài)架構(gòu)，意味著模型從預(yù)訓(xùn)練階段就將文本與視覺理解融合，而非后期拼接；

V4 Lite參數(shù)規(guī)模估算為2000億，另有猜測認(rèn)為完整版V4參數(shù)量可能突破1萬億；

效果顯著優(yōu)于網(wǎng)頁端/APP端模型；

泄露的測試示例顯示，V4 Lite能用極簡代碼（如54行）生成高質(zhì)量的SVG圖像（如Xbox手柄），在代碼優(yōu)化和視覺還原度上被認(rèn)為超越了DeepSeek V3.2、Claude Opus 4.6等模型，這暗示了其空間推理和結(jié)構(gòu)化輸出能力的提升。

回顧DeepSeek的模型迭代之路

DeepSeek已“蟄伏”超一年，其上次重大更新——R1發(fā)布于2025年1月20日。

回顧DeepSeek的模型迭代之路，該公司的優(yōu)化路徑十分清晰——提升推理能力、平衡模型性能與推理效率，為大模型“降本”。

DeepSeek已發(fā)布的主要模型是兩條技術(shù)路線的代表：追求極致綜合性能的V系列“全能助手”和專注于復(fù)雜推理的R系列“解題專家”。

2024年5月，DeepSeek V2發(fā)布，被視作DeepSeek的首次重大突破，其研究團(tuán)隊(duì)提出了多頭潛在注意力（MLA）機(jī)制，大幅降低推理時的顯存占用和成本，以極低的推理費(fèi)用出圈，確立了混合專家模型（MoE）的技術(shù)路線。

2024年12月推出的V3是DeepSeek的重要里程碑，其高效的MoE架構(gòu)確立了強(qiáng)大的綜合性能基礎(chǔ)。此后，V3系列通過小版本更新不斷打磨，不斷提升用戶體驗(yàn)和模型Agent能力??。

其中，2025年8月發(fā)布的DeepSeek-V3.1，是一個里程碑式的更新，首次將V3和R1的能力融合到一個模型中，支持思考模式和非思考模式的自由切換，在SWE-bench等基準(zhǔn)上比前代提升超40%；2025年12月推出的V3.2，是DeepSeek首個將深度思考與工具使用無縫融合的版本，推理能力達(dá)到GPT-5水平，在H800集群上，128K序列長度的推理成本顯著降低：預(yù)填充階段每百萬token成本從0.7美元降至0.2美元，解碼階段從2.4美元降至0.8美元，這一定價使其成為當(dāng)時同級別模型中長文本推理成本最低的選擇之一。

2025年1月發(fā)布的R1，是其首代專用推理模型，首次證明通過大規(guī)模強(qiáng)化學(xué)習(xí)（RL）能激發(fā)模型的推理能力，通過強(qiáng)化學(xué)習(xí)，該模型在解決數(shù)學(xué)問題、代碼編程等復(fù)雜推理任務(wù)上表現(xiàn)卓越，并首創(chuàng)了“深度思考”模式，性能對標(biāo)OpenAI最強(qiáng)模型o1，但推理成本（僅為約560萬美元）不到其十分之一。

可以看出，在大家等待V4期間，DeepSeek一直沒有停下腳步，另外，其在多模態(tài)能力上的布局比V4更早。從技術(shù)演進(jìn)來看，DeepSeek早在2023年的V3系列和2024年的V2版本中就已經(jīng)開始布局和實(shí)現(xiàn)多模態(tài)能力。2025年初發(fā)布的Janus系列更是專門的、功能強(qiáng)大的多模態(tài)模型。

閱103.7W

我要評論

反饋意見