①這或是一款具備圖片、視頻和文本生成功能的多模態(tài)模型; ②DeepSeek為國產(chǎn)算力提供深度支持; ③DeepSeek將在V4發(fā)布時同步放出一份簡短的技術(shù)說明。
《科創(chuàng)板日報》3月1日訊(編輯 宋子喬) 當(dāng)?shù)貢r間2月28日,據(jù)金融時報報道,DeepSeek將于下周發(fā)布其最新的大模型V4。

據(jù)兩位知情人士透露,這是一款具備圖片、視頻和文本生成功能的多模態(tài)模型。在硬件適配方面,DeepSeek為國產(chǎn)算力提供深度支持,DeepSeek致力于優(yōu)化V4模型以適配中國制造的芯片,此舉有望提振中國市場對其半導(dǎo)體產(chǎn)品的需求,并加速AI模型“推理”環(huán)節(jié)靠攏本土芯片。
據(jù)一位直接了解相關(guān)計劃的人士透露,DeepSeek預(yù)計在發(fā)布V4版本的同時,發(fā)布一份篇幅較短的技術(shù)說明,并在大約一個月后發(fā)布一份更全面的報告。
截至發(fā)稿,DeepSeek官方尚未對V4的任何信息進(jìn)行正式回應(yīng)或確認(rèn),所有信息均來媒體爆料,詳細(xì)信息多集中在正在進(jìn)行秘密測試的簡化版本V4 Lite(精簡版)上。據(jù)《科創(chuàng)板日報》綜合的消息,關(guān)于V4 Lite:
其代號為“sealion-lite”,擁有100萬(1M)個tokens的上下文窗口,相比V3系列的128K有近8倍提升,理論上可一次處理如《三體》全集體量的長文本;
為原生多模態(tài)架構(gòu),意味著模型從預(yù)訓(xùn)練階段就將文本與視覺理解融合,而非后期拼接;
V4 Lite參數(shù)規(guī)模估算為2000億,另有猜測認(rèn)為完整版V4參數(shù)量可能突破1萬億;
效果顯著優(yōu)于網(wǎng)頁端/APP端模型;
泄露的測試示例顯示,V4 Lite能用極簡代碼(如54行)生成高質(zhì)量的SVG圖像(如Xbox手柄),在代碼優(yōu)化和視覺還原度上被認(rèn)為超越了DeepSeek V3.2、Claude Opus 4.6等模型,這暗示了其空間推理和結(jié)構(gòu)化輸出能力的提升。
DeepSeek已“蟄伏”超一年,其上次重大更新——R1發(fā)布于2025年1月20日。
回顧DeepSeek的模型迭代之路,該公司的優(yōu)化路徑十分清晰——提升推理能力、平衡模型性能與推理效率,為大模型“降本”。
DeepSeek已發(fā)布的主要模型是兩條技術(shù)路線的代表:追求極致綜合性能的V系列“全能助手”和專注于復(fù)雜推理的R系列“解題專家”。
2024年5月,DeepSeek V2發(fā)布,被視作DeepSeek的首次重大突破,其研究團(tuán)隊(duì)提出了多頭潛在注意力(MLA)機(jī)制,大幅降低推理時的顯存占用和成本,以極低的推理費(fèi)用出圈,確立了混合專家模型(MoE)的技術(shù)路線。
2024年12月推出的V3是DeepSeek的重要里程碑,其高效的MoE架構(gòu)確立了強(qiáng)大的綜合性能基礎(chǔ)。此后,V3系列通過小版本更新不斷打磨,不斷提升用戶體驗(yàn)和模型Agent能力??。
其中,2025年8月發(fā)布的DeepSeek-V3.1,是一個里程碑式的更新,首次將V3和R1的能力融合到一個模型中,支持思考模式和非思考模式的自由切換,在SWE-bench等基準(zhǔn)上比前代提升超40%;2025年12月推出的V3.2,是DeepSeek首個將深度思考與工具使用無縫融合的版本,推理能力達(dá)到GPT-5水平,在H800集群上,128K序列長度的推理成本顯著降低:預(yù)填充階段每百萬token成本從0.7美元降至0.2美元,解碼階段從2.4美元降至0.8美元,這一定價使其成為當(dāng)時同級別模型中長文本推理成本最低的選擇之一。
2025年1月發(fā)布的R1,是其首代專用推理模型,首次證明通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)能激發(fā)模型的推理能力,通過強(qiáng)化學(xué)習(xí),該模型在解決數(shù)學(xué)問題、代碼編程等復(fù)雜推理任務(wù)上表現(xiàn)卓越,并首創(chuàng)了“深度思考”模式,性能對標(biāo)OpenAI最強(qiáng)模型o1,但推理成本(僅為約560萬美元)不到其十分之一。
可以看出,在大家等待V4期間,DeepSeek一直沒有停下腳步,另外,其在多模態(tài)能力上的布局比V4更早。從技術(shù)演進(jìn)來看,DeepSeek早在2023年的V3系列和2024年的V2版本中就已經(jīng)開始布局和實(shí)現(xiàn)多模態(tài)能力。2025年初發(fā)布的Janus系列更是專門的、功能強(qiáng)大的多模態(tài)模型。

