①該原型率先向美國Google AI Ultra訂閱用戶開放; ②AI先驅(qū)們幾乎一致認(rèn)為,世界模型對打造下一代AI至關(guān)重要; ③世界模型可能會首先重塑游戲、影視行業(yè)。
《科創(chuàng)板日報》1月31日訊(編輯 宋子喬) 如果人工智能領(lǐng)域的進(jìn)步可以看作一部交響樂,那么過去幾年,樂章的主題無疑是“生成”——生成文字、圖像、聲音乃至視頻。然而,在2026年初,一段嶄新的旋律被奏響:它不僅生成,更能構(gòu)建。
北京時間1月30日凌晨,谷歌DeepMind向外部開放了Project Genie,它被認(rèn)為是目前最先進(jìn)的世界模型之一,可以算是世界模型Genie3的實(shí)驗(yàn)性研究原型,也是這套世界模型第一次以可交互形態(tài)對公眾開放。
“Genie”這個單詞源于阿拉伯語 jinni(精靈),后經(jīng)法語變形成 génie后成為一個英語詞匯,最常見的含義是指阿拉伯和伊斯蘭神話傳說中,一個能實(shí)現(xiàn)召喚者愿望的“精靈”或“神怪”。谷歌DeepMind將其世界模型項(xiàng)目命名為“Project Genie”(精靈計劃),正是在闡釋該神話的內(nèi)涵:這個AI模型能將你用文字描述的任何場景(召喚者的愿望),瞬間生成一個可以進(jìn)入并交互的虛擬世界。
當(dāng)AI不僅能夠描繪夢境,更能讓人走進(jìn)夢境并與之互動時,我們所討論的“虛擬”與“現(xiàn)實(shí)”的邊界,或許已到了需要被重新思考的時刻。
目前,該原型率先向年滿18歲的美國Google AI Ultra(3個月125美元)訂閱用戶開放。
Project Genie的底層是世界模型Genie 3。與OpenAI的Sora等內(nèi)容生成大模型不同,它的功能不局限于多模態(tài)內(nèi)容生成(比如AI視頻生成工具可為用戶創(chuàng)作一段影片,模型可依據(jù)、參考的一切數(shù)據(jù)來自人類儲存好的文字庫、圖像庫及視頻庫),而是可以生成一個完整的空間,實(shí)現(xiàn)“憑空造世”:
只需用文字描述一個場景或上傳一張圖片,例如“一座被巧克力河環(huán)繞的棉花糖城堡”,一個實(shí)時的、可交互的3D虛擬世界便會在幾秒鐘內(nèi)生成。
用戶能夠像玩電子游戲一樣,指揮角色在其中自由行走、飛行或駕駛,探索這個想象出來的世界。
周圍的環(huán)境則根據(jù)視角和行為動態(tài)、連續(xù)地生成。這并非依賴傳統(tǒng)的游戲引擎解碼固定數(shù)據(jù),而是對潛在物理規(guī)律與空間邏輯的一次即時推演與具現(xiàn),能在用戶移動時,實(shí)時生成前方的路徑和環(huán)境。
從技術(shù)本質(zhì)上看,世界模型的核心是模擬環(huán)境的動態(tài)變化,預(yù)測環(huán)境的演化和行為對環(huán)境的影響。
谷歌DeepMind在諸如國際象棋、圍棋等特定環(huán)境的AI智能體研發(fā)上已有深厚積累,但要實(shí)現(xiàn)通用人工智能(AGI),系統(tǒng)必須能夠理解和應(yīng)對現(xiàn)實(shí)世界近乎無限的復(fù)雜性與多樣性。
Genie 3正是在這一方向上邁出的關(guān)鍵一步。它提供了一種前所未有的模擬能力,能夠生成任何現(xiàn)實(shí)或虛構(gòu)場景的交互式環(huán)境。這為機(jī)器人技術(shù)、動畫制作乃至歷史場景的虛擬探索等領(lǐng)域提供了強(qiáng)大的工具。
對于AI的發(fā)展而言,Project Genie的深意遠(yuǎn)不止于炫酷的體驗(yàn)。它最核心的價值,在于為AI智能體(及未來的機(jī)器人)提供了一個無限、安全且成本可控的“模擬訓(xùn)練場”、“試錯沙盒”。智能體可以在Genie創(chuàng)造的海量、多樣化的模擬環(huán)境中進(jìn)行學(xué)習(xí)和訓(xùn)練,理解現(xiàn)實(shí)世界的物理規(guī)則和因果邏輯,這正是邁向通用人工智能不可或缺的基石。
從這個角度看,世界模型并非一個內(nèi)容端的創(chuàng)作工具,而是一座連接當(dāng)前AI與未來“具身智能”的橋梁,是讓AI學(xué)會“常識”與“因果”的關(guān)鍵基礎(chǔ)設(shè)施。
人工智能先驅(qū)們幾乎一致認(rèn)為,世界模型對打造下一代人工智能至關(guān)重要。許多人表示,該技術(shù)終將助力創(chuàng)造超越人類的AGI。
斯坦福大學(xué)教授、人工智能“教母”李飛飛創(chuàng)立了世界模型初創(chuàng)公司W(wǎng)orld Labs,據(jù)知情人士本月透露,“AI教母”李飛飛正與投資者展開新一輪洽談,該公司最新估值有望達(dá)到約50億美元;早些時候的消息顯示,“AI教父”楊立昆的世界模型初創(chuàng)公司AMI Labs在一輪融資中吸引了包括Cathay Innovation在內(nèi)的潛在支持者,該輪融資可能使這位前Meta首席人工智能科學(xué)家的公司估值達(dá)到35億美元;英偉達(dá)CEO黃仁勛早早表態(tài),世界模型能助力實(shí)現(xiàn)“物理人工智能”,自主操控機(jī)器人、自動駕駛汽車等設(shè)備;Meta的超級智能AI實(shí)驗(yàn)室與機(jī)器人團(tuán)隊(duì)合作,正是為了構(gòu)建世界模型,通過模擬現(xiàn)實(shí)世界物理規(guī)律,為機(jī)器人提供空間感知和精細(xì)操作能力,彌補(bǔ)現(xiàn)有機(jī)器人的不足……
當(dāng)然,作為初期成果,Project Genie為代表的世界模型仍非常不成熟。以Project Genie為例,該模型每次生成和探索的時間被嚴(yán)格限定在60秒以內(nèi),生成的世界在物理效果上可能不夠逼真,有時無法精確遵循提示詞或現(xiàn)實(shí)世界的物理定律,角色的操控也時常出現(xiàn)延遲或響應(yīng)不精確的問題。此外,一些在早期演示中提及的高級功能,如通過即時指令改變世界事件,尚未在此版本中實(shí)現(xiàn)。
這些限制部分源于世界模型巨大的計算消耗,這也是當(dāng)前AI模型技術(shù)面臨的核心矛盾。DeepMind的研究人員坦言,用戶每使用一次,背后都有一塊專用的計算芯片為其服務(wù)。每一次看似輕松的“造世”,背后都依賴專用計算芯片的全功率運(yùn)轉(zhuǎn)。這決定了它在現(xiàn)階段,更像一扇僅供窺探未來的窄窗,而非可以隨意出入的大門。
谷歌DeepMind、World Labs等領(lǐng)先的AI團(tuán)隊(duì)都認(rèn)為,世界模型可能會首先重塑游戲、影視行業(yè)。
傳統(tǒng)的3D資產(chǎn)創(chuàng)建與場景搭建是人力與時間密集型的核心環(huán)節(jié)。Project Genie展示的可能性是,將部分前期概念設(shè)計、場景原型構(gòu)建乃至動態(tài)分鏡預(yù)覽的過程,壓縮至幾分鐘甚至幾秒鐘。這并非要取代專業(yè)的創(chuàng)作引擎,而是可能重塑創(chuàng)作流程的起點(diǎn),極大地釋放創(chuàng)意驗(yàn)證的速度。
DeepMind世界模型項(xiàng)目Genie 3的聯(lián)合負(fù)責(zé)人Shlomi Fruchter此前表示:“軟件開發(fā),尤其是游戲開發(fā),正在發(fā)生巨大變化,我預(yù)計在未來幾年,這種變化甚至可能是徹底性的?!?/p>
去年年底,World Labs正式推出了其首款商業(yè)產(chǎn)品、由生成式AI驅(qū)動的三維世界生成系統(tǒng)Marble。李飛飛表示,這項(xiàng)技術(shù)將影響Unity和Epic旗下Unreal等游戲引擎,“這一切都將被顛覆,模擬類游戲引擎確實(shí)到了該升級的時候了?!?/p>
除了游戲領(lǐng)域,xAI、英偉達(dá)等公司,也希望將世界模型嵌入機(jī)器人和自動駕駛汽車中。

