①各大模型的token調(diào)用量自2026年1月下旬出現(xiàn)明顯躍升; ②國產(chǎn)大模型站上舞臺中央; ③智能體在執(zhí)行任務(wù)時,整體token消耗或提升十倍以上,而對應(yīng)的算力需求將增長百倍以上。
《科創(chuàng)板日報》2月27日訊(編輯 宋子喬) 最近,大模型token調(diào)用量井噴成為關(guān)注點。OpenRouter最新數(shù)據(jù)顯示,各大模型的token調(diào)用量自2026年1月下旬出現(xiàn)明顯躍升。

與此同時,國產(chǎn)大模型站上舞臺中央。2月9日-15日這周,中國模型以4.12萬億token的調(diào)用量,首次超過同期美國模型的2.94萬億token。16日-22日這周,中國模型的周調(diào)用量進一步?jīng)_高至5.16萬億Token,三周大漲127%,而同期美國模型調(diào)用量跌至2.7萬億Token。平臺調(diào)用量排名前五的模型中,有四款來自中國廠商,分別為MiniMax的M2.5、月之暗面的Kimi K2.5、智譜的GLM-5以及DeepSeek的V3.2。這四款模型合計貢獻了Top5總調(diào)用量的85.7%。
其中,M2.5一鳴驚人,在發(fā)布后12小時內(nèi)登頂OpenRouter熱度榜,一周內(nèi)登頂調(diào)用量榜首,周調(diào)用量暴漲至3.07T tokens,超過Kimi K2.5、GLM-5與DeepSeek V3.2三家的總和。
OpenRouter是全球最大的大模型API聚合平臺,可為開發(fā)者提供統(tǒng)一API接口,以訪問全球數(shù)百種大語言模型。其核心功能包括多模型調(diào)用、智能路由優(yōu)化和透明的性能排行榜,旨在解決多模型集成復(fù)雜和廠商封鎖問題。
當(dāng)目光聚焦于AI應(yīng)用普及、國產(chǎn)模型崛起等,不應(yīng)該忽視數(shù)據(jù)背后的結(jié)構(gòu)性變化。
模型調(diào)用量因何在近期爆發(fā)?排名靠前的為何是M2.5等新秀?
多家機構(gòu)認為,一方面是,春節(jié)帶來AI應(yīng)用滲透率提高,token消耗量有了總體提升;另一方面,AI模型的Agent(智能體)場景廣泛落地,單次任務(wù)token消耗大幅增加。
伴隨1月下旬以來的這一輪增長,梳理AI行業(yè)的新動向,也能為上述問題提供思路。
首先是OpenClaw爆火,這是一個能讓大模型獲得本地操作系統(tǒng)權(quán)限的開源智能體框架,可讓AI可以自己執(zhí)行Shell命令、操作文件系統(tǒng),實現(xiàn)所謂的“本地代理主權(quán)”。當(dāng)?shù)貢r間2月15日,OpenClaw的創(chuàng)造者Peter Steinberger正式加入OpenAI,負責(zé)推動“下一代個人智能體”的研發(fā)。
隨后多個面向智能體場景的大模型發(fā)布,反響熱烈——
稀宇科技(MiniMax)于2月13日發(fā)布MiniMax M2.5,稱該模型為全球首個為智能體場景原生設(shè)計的生產(chǎn)級旗艦?zāi)P?。其發(fā)布后七天的調(diào)用量即突破3.07T tokens,憑借在編程和Agent工作流中的卓越性能與極低的成本,成為開發(fā)者首選。
月之暗面(Moonshot AI)于1月27日發(fā)布KimiK2.5,該模型采用原生多模態(tài)架構(gòu),能通過調(diào)度多達100個“Agent分身”并行工作,將復(fù)雜任務(wù)效率提升3到10倍。該模型在多個細分榜單(如編程、工具調(diào)用)中均排名第一,其調(diào)用量遠超Gemini 3和Claude模型。
智譜于2月12日發(fā)布GLM-5,該模型參數(shù)規(guī)模進一步擴展,采用了稀疏注意力機制,是其專為復(fù)雜系統(tǒng)工程與長程Agent任務(wù)設(shè)計的旗艦?zāi)P汀{借免費、200K上下文窗口等優(yōu)勢,該模型發(fā)布后用戶迎來高速增長,智譜對Coding Plan先后進行了限售、漲價等動作。
這些模型聚焦于提升編程能力和智能體任務(wù)的自動化水平,這兩大能力讓AI的應(yīng)用場景從私人化娛樂向生產(chǎn)環(huán)境轉(zhuǎn)變,專業(yè)開發(fā)者的token消耗遠比普通對話密集,這類需求一旦被激活,帶動的調(diào)用增量隨之大幅攀升。
OpenRouter的官方數(shù)據(jù)證實了這一點,該平臺超70%的token消耗量,來自互聯(lián)網(wǎng)大廠、中大型企業(yè)、專業(yè)開發(fā)者的生產(chǎn)環(huán)境常態(tài)化調(diào)用,這類場景的單次token調(diào)用量遠超個人用戶、小型測試項目等。官方確認,過去數(shù)周內(nèi),平臺長文本生成需求顯著上升,在100K至1M token區(qū)間,MiniMax M2.5的調(diào)用量處于領(lǐng)先位置,這個區(qū)間正是智能體工作流的典型消耗場景。
可以說,這輪token消耗量爆發(fā),直接反映出大模型發(fā)展的新趨勢,AI正從“快思考”走向“慢思考”、從“工具”走向“勞動力”,各大AI前沿公司力研的智能體功能正屬于“慢思考”的范疇。
當(dāng)模型面對復(fù)雜任務(wù)(如“寫一個電商網(wǎng)站的代碼”)時,它不再直接輸出答案。它會先“自言自語”:拆解需求、設(shè)計架構(gòu)、編寫函數(shù)、檢查bug、優(yōu)化性能,因為AI開始“在腦子里反復(fù)推演”。每一次推演、每一步邏輯鏈的建立,都在消耗token。這種“推理密度”的增加,使得token消耗的增長速度遠遠超過了用戶數(shù)量或提問次數(shù)的增長速度。
中信證券稱,AI應(yīng)用場景從簡單對話,向多模態(tài)(文本/圖像/音頻/視頻)、AI智能體升級,單次任務(wù)token消耗呈指數(shù)級上升。該機構(gòu)認為,token的爆發(fā)式增長,本質(zhì)上反映出AI推理需求的指數(shù)級擴容。
華泰證券此前預(yù)測,隨著推理范式變化,智能體加速落地,未來算力需求中存在兩個倍數(shù)關(guān)系,共同決定了算力需求的廣闊空間:
1)推理和token調(diào)用量之間不是線性關(guān)系,這是因為多智能體協(xié)作和多工具調(diào)用會帶來token消耗量加速增長;
2)算力需求與token的增長之間不是線性關(guān)系,這是因為隨著推理過程更加復(fù)雜,同樣算力條件下計算時間也將增長,實時性和交互性帶來對計算速度的要求。
該機構(gòu)認為,與Chatbot相比,智能體在執(zhí)行任務(wù)時會進行任務(wù)的分解與編碼,將帶來交互次數(shù)、任務(wù)復(fù)雜度、使用頻率的提升,整體token消耗或提升十倍以上,而對應(yīng)的算力需求將增長百倍以上,長期看好算力需求的持續(xù)快速增長。

