91国产免费高清,99无码电影网亚洲操网

DeepSeek模型更新！上下文提升至百萬Token 可處理三體小說全集

原創(chuàng)

2026-02-11 21:10 星期三

科創(chuàng)板日報記者黃心怡

①DeepSeek已在網(wǎng)頁及App端進行版本更新，上下文窗口由原有的128K直接提升至1M（百萬Token）級別。
②三體三部曲合計總計90萬字，這也意味著DeepSeek能夠單次完成處理《三體》全集的長文本。

《科創(chuàng)板日報》2月11日訊（記者黃心怡編輯宋子喬）DeepSeek傳聞中的V4尚未正式發(fā)布。2月11日，多位用戶反饋DeepSeek已在網(wǎng)頁及App端進行版本更新，上下文窗口由原有的128K直接提升至1M（百萬Token）級別。

《科創(chuàng)板日報》記者實測中發(fā)現(xiàn)，DeepSeek在問答中稱自身支持上下文1M，可以一次性處理超長文本。此外，版本模型知識庫截止時間更新至2025年5月。不過，新版本目前不支持視覺輸入，也不具備多模態(tài)識別能力。

《科創(chuàng)板日報》記者進一步詢問模型的版本，DeepSeek稱沒有固定的版本號，更像一個持續(xù)進化的"最新版”

在嘗試提交了超過24萬個token的《簡愛》小說文檔后，DeepSeek可以支持識別文檔內(nèi)容。

三體三部曲合計總計90萬字，這也意味著DeepSeek能夠單次完成處理《三體》全集的長文本。

記者隨即提交了《三體》全集，DeepSeek的處理速度相較文字更少的《簡愛》要慢一些，但也在幾分鐘內(nèi)完成了文檔閱讀。

值得關(guān)注的是，近期DeepSeek開放了多個技術(shù)崗位招聘，包括產(chǎn)品經(jīng)理/模型策略產(chǎn)品經(jīng)理、客戶端/前端/全棧研發(fā)工程師等。

此外，DeepSeek還在1月14日發(fā)布了CFO的崗位招聘。

目前，能將上下文推至百萬級別的模型較少，谷歌的Gemini系列和Anthropic的Claude Opus 4.6等已率先實現(xiàn)。

DeepSeek的V系列模型定位為追求極致綜合性能的基礎(chǔ)模型。2024年12月推出的基礎(chǔ)模型V3是DeepSeek的重要里程碑，其高效的MoE架構(gòu)確立了強大的綜合性能基礎(chǔ)。此后，DeepSeek在V3基礎(chǔ)上快速迭代，發(fā)布了強化推理與Agent（智能體）能力的V3.1，并于2025年12月推出了最新正式版V3.2。同時，還推出了一個專注于攻克高難度數(shù)學(xué)和學(xué)術(shù)問題的特殊版本V3.2-Speciale。

科技媒體The Information此前爆料稱，DeepSeek將在今年2月中旬農(nóng)歷新年期間推出新一代旗艦AI模型DeepSeek V4，將具備更強的寫代碼能力。

隨著這個日期迫近，襁褓中的V4成了關(guān)注焦點，Deepseek的每一次更新，都引來諸多關(guān)注。據(jù)《科創(chuàng)板日報》梳理，今日的版本更新之外，年初以來，Deepseek公布了兩項底層架構(gòu)突破，并釋放一個旗艦迭代信號。

今年初，DeepSeek團隊發(fā)表兩篇論文，公開了兩項創(chuàng)新架構(gòu)：mHC（流形約束超連接）用來優(yōu)化深層Transformer信息流動，使模型訓(xùn)練更穩(wěn)定、易擴展，在不增加算力負擔(dān)前提下提升性能；Engram（條件記憶模塊）將靜態(tài)知識與動態(tài)計算解耦，用廉價DRAM存儲實體知識，釋放昂貴HBM專注推理，顯著降低長上下文推理成本。

這兩項技術(shù)被認為是中國大模型突破“算力芯片和內(nèi)存瓶頸”的算法創(chuàng)新，創(chuàng)始人梁文鋒均署名參與相關(guān)論文。

1月21日，R1模型發(fā)布一周年之際，DeepSeek新模型“MODEL1”曝光。DeepSeek官方GitHub倉庫更新了一系列FlashMLA代碼，借助AI對全部總代碼文件數(shù):114個（包括.py, .md, .txt, .sh, .cpp, .cu, .h文件）進行分析，發(fā)現(xiàn)了一個此前未公開的模型架構(gòu)標識“MODEL1”，共被提及31次。

閱64.39W

我要評論

反饋意見