①DeepSeek已在網(wǎng)頁及App端進行版本更新,上下文窗口由原有的128K直接提升至1M(百萬Token)級別。 ②三體三部曲合計總計90萬字,這也意味著DeepSeek能夠單次完成處理《三體》全集的長文本。
《科創(chuàng)板日報》2月11日訊(記者 黃心怡 編輯 宋子喬)DeepSeek傳聞中的V4尚未正式發(fā)布。2月11日,多位用戶反饋DeepSeek已在網(wǎng)頁及App端進行版本更新,上下文窗口由原有的128K直接提升至1M(百萬Token)級別。

《科創(chuàng)板日報》記者實測中發(fā)現(xiàn),DeepSeek在問答中稱自身支持上下文1M,可以一次性處理超長文本。此外,版本模型知識庫截止時間更新至2025年5月。不過,新版本目前不支持視覺輸入,也不具備多模態(tài)識別能力。

《科創(chuàng)板日報》記者進一步詢問模型的版本,DeepSeek稱沒有固定的版本號,更像一個持續(xù)進化的"最新版”

在嘗試提交了超過24萬個token的《簡愛》小說文檔后,DeepSeek可以支持識別文檔內(nèi)容。

三體三部曲合計總計90萬字,這也意味著DeepSeek能夠單次完成處理《三體》全集的長文本。
記者隨即提交了《三體》全集,DeepSeek的處理速度相較文字更少的《簡愛》要慢一些,但也在幾分鐘內(nèi)完成了文檔閱讀。

值得關(guān)注的是,近期DeepSeek開放了多個技術(shù)崗位招聘,包括產(chǎn)品經(jīng)理/模型策略產(chǎn)品經(jīng)理、客戶端/前端/全棧研發(fā)工程師等。

此外,DeepSeek還在1月14日發(fā)布了CFO的崗位招聘。

目前,能將上下文推至百萬級別的模型較少,谷歌的Gemini系列和Anthropic的Claude Opus 4.6等已率先實現(xiàn)。
DeepSeek的V系列模型定位為追求極致綜合性能的基礎(chǔ)模型。2024年12月推出的基礎(chǔ)模型V3是DeepSeek的重要里程碑,其高效的MoE架構(gòu)確立了強大的綜合性能基礎(chǔ)。此后,DeepSeek在V3基礎(chǔ)上快速迭代,發(fā)布了強化推理與Agent(智能體)能力的V3.1,并于2025年12月推出了最新正式版V3.2。同時,還推出了一個專注于攻克高難度數(shù)學(xué)和學(xué)術(shù)問題的特殊版本V3.2-Speciale。
科技媒體The Information此前爆料稱,DeepSeek將在今年2月中旬農(nóng)歷新年期間推出新一代旗艦AI模型DeepSeek V4,將具備更強的寫代碼能力。
隨著這個日期迫近,襁褓中的V4成了關(guān)注焦點,Deepseek的每一次更新,都引來諸多關(guān)注。據(jù)《科創(chuàng)板日報》梳理,今日的版本更新之外,年初以來,Deepseek公布了兩項底層架構(gòu)突破,并釋放一個旗艦迭代信號。
今年初,DeepSeek團隊發(fā)表兩篇論文,公開了兩項創(chuàng)新架構(gòu):mHC(流形約束超連接)用來優(yōu)化深層Transformer信息流動,使模型訓(xùn)練更穩(wěn)定、易擴展,在不增加算力負擔(dān)前提下提升性能;Engram(條件記憶模塊)將靜態(tài)知識與動態(tài)計算解耦,用廉價DRAM存儲實體知識,釋放昂貴HBM專注推理,顯著降低長上下文推理成本。
這兩項技術(shù)被認為是中國大模型突破“算力芯片和內(nèi)存瓶頸”的算法創(chuàng)新,創(chuàng)始人梁文鋒均署名參與相關(guān)論文。
1月21日,R1模型發(fā)布一周年之際,DeepSeek新模型“MODEL1”曝光。DeepSeek官方GitHub倉庫更新了一系列FlashMLA代碼,借助AI對全部總代碼文件數(shù):114個(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)進行分析,發(fā)現(xiàn)了一個此前未公開的模型架構(gòu)標識“MODEL1”,共被提及31次。

