代號“精靈” 谷歌首次開放世界模型 AI加速進(jìn)入“憑空造世”時代

原創(chuàng)

2026-01-31 07:56 星期六

科創(chuàng)板日報宋子喬

①該原型率先向美國Google AI Ultra訂閱用戶開放；
②AI先驅(qū)們幾乎一致認(rèn)為，世界模型對打造下一代AI至關(guān)重要；
③世界模型可能會首先重塑游戲、影視行業(yè)。

《科創(chuàng)板日報》1月31日訊（編輯宋子喬） 如果人工智能領(lǐng)域的進(jìn)步可以看作一部交響樂，那么過去幾年，樂章的主題無疑是“生成”——生成文字、圖像、聲音乃至視頻。然而，在2026年初，一段嶄新的旋律被奏響：它不僅生成，更能構(gòu)建。

北京時間1月30日凌晨，谷歌DeepMind向外部開放了Project Genie，它被認(rèn)為是目前最先進(jìn)的世界模型之一，可以算是世界模型Genie3的實(shí)驗(yàn)性研究原型，也是這套世界模型第一次以可交互形態(tài)對公眾開放。

“Genie”這個單詞源于阿拉伯語 jinni（精靈），后經(jīng)法語變形成 génie后成為一個英語詞匯，最常見的含義是指阿拉伯和伊斯蘭神話傳說中，一個能實(shí)現(xiàn)召喚者愿望的“精靈”或“神怪”。谷歌DeepMind將其世界模型項(xiàng)目命名為“Project Genie”（精靈計劃），正是在闡釋該神話的內(nèi)涵：這個AI模型能將你用文字描述的任何場景（召喚者的愿望），瞬間生成一個可以進(jìn)入并交互的虛擬世界。

當(dāng)AI不僅能夠描繪夢境，更能讓人走進(jìn)夢境并與之互動時，我們所討論的“虛擬”與“現(xiàn)實(shí)”的邊界，或許已到了需要被重新思考的時刻。

目前，該原型率先向年滿18歲的美國Google AI Ultra（3個月125美元）訂閱用戶開放。

Project Genie有何不同？

Project Genie的底層是世界模型Genie 3。與OpenAI的Sora等內(nèi)容生成大模型不同，它的功能不局限于多模態(tài)內(nèi)容生成（比如AI視頻生成工具可為用戶創(chuàng)作一段影片，模型可依據(jù)、參考的一切數(shù)據(jù)來自人類儲存好的文字庫、圖像庫及視頻庫），而是可以生成一個完整的空間，實(shí)現(xiàn)“憑空造世”：

只需用文字描述一個場景或上傳一張圖片，例如“一座被巧克力河環(huán)繞的棉花糖城堡”，一個實(shí)時的、可交互的3D虛擬世界便會在幾秒鐘內(nèi)生成。

用戶能夠像玩電子游戲一樣，指揮角色在其中自由行走、飛行或駕駛，探索這個想象出來的世界。

周圍的環(huán)境則根據(jù)視角和行為動態(tài)、連續(xù)地生成。這并非依賴傳統(tǒng)的游戲引擎解碼固定數(shù)據(jù)，而是對潛在物理規(guī)律與空間邏輯的一次即時推演與具現(xiàn)，能在用戶移動時，實(shí)時生成前方的路徑和環(huán)境。

從技術(shù)本質(zhì)上看，世界模型的核心是模擬環(huán)境的動態(tài)變化，預(yù)測環(huán)境的演化和行為對環(huán)境的影響。

谷歌DeepMind在諸如國際象棋、圍棋等特定環(huán)境的AI智能體研發(fā)上已有深厚積累，但要實(shí)現(xiàn)通用人工智能（AGI），系統(tǒng)必須能夠理解和應(yīng)對現(xiàn)實(shí)世界近乎無限的復(fù)雜性與多樣性。

Genie 3正是在這一方向上邁出的關(guān)鍵一步。它提供了一種前所未有的模擬能力，能夠生成任何現(xiàn)實(shí)或虛構(gòu)場景的交互式環(huán)境。這為機(jī)器人技術(shù)、動畫制作乃至歷史場景的虛擬探索等領(lǐng)域提供了強(qiáng)大的工具。

對于AI的發(fā)展而言，Project Genie的深意遠(yuǎn)不止于炫酷的體驗(yàn)。它最核心的價值，在于為AI智能體（及未來的機(jī)器人）提供了一個無限、安全且成本可控的“模擬訓(xùn)練場”、“試錯沙盒”。智能體可以在Genie創(chuàng)造的海量、多樣化的模擬環(huán)境中進(jìn)行學(xué)習(xí)和訓(xùn)練，理解現(xiàn)實(shí)世界的物理規(guī)則和因果邏輯，這正是邁向通用人工智能不可或缺的基石。

從這個角度看，世界模型并非一個內(nèi)容端的創(chuàng)作工具，而是一座連接當(dāng)前AI與未來“具身智能”的橋梁，是讓AI學(xué)會“常識”與“因果”的關(guān)鍵基礎(chǔ)設(shè)施。

AI學(xué)術(shù)大佬、科技巨頭爭相布局

人工智能先驅(qū)們幾乎一致認(rèn)為，世界模型對打造下一代人工智能至關(guān)重要。許多人表示，該技術(shù)終將助力創(chuàng)造超越人類的AGI。

斯坦福大學(xué)教授、人工智能“教母”李飛飛創(chuàng)立了世界模型初創(chuàng)公司W(wǎng)orld Labs，據(jù)知情人士本月透露，“AI教母”李飛飛正與投資者展開新一輪洽談，該公司最新估值有望達(dá)到約50億美元；早些時候的消息顯示，“AI教父”楊立昆的世界模型初創(chuàng)公司AMI Labs在一輪融資中吸引了包括Cathay Innovation在內(nèi)的潛在支持者，該輪融資可能使這位前Meta首席人工智能科學(xué)家的公司估值達(dá)到35億美元；英偉達(dá)CEO黃仁勛早早表態(tài)，世界模型能助力實(shí)現(xiàn)“物理人工智能”，自主操控機(jī)器人、自動駕駛汽車等設(shè)備；Meta的超級智能AI實(shí)驗(yàn)室與機(jī)器人團(tuán)隊(duì)合作，正是為了構(gòu)建世界模型，通過模擬現(xiàn)實(shí)世界物理規(guī)律，為機(jī)器人提供空間感知和精細(xì)操作能力，彌補(bǔ)現(xiàn)有機(jī)器人的不足……

當(dāng)然，作為初期成果，Project Genie為代表的世界模型仍非常不成熟。以Project Genie為例，該模型每次生成和探索的時間被嚴(yán)格限定在60秒以內(nèi)，生成的世界在物理效果上可能不夠逼真，有時無法精確遵循提示詞或現(xiàn)實(shí)世界的物理定律，角色的操控也時常出現(xiàn)延遲或響應(yīng)不精確的問題。此外，一些在早期演示中提及的高級功能，如通過即時指令改變世界事件，尚未在此版本中實(shí)現(xiàn)。

這些限制部分源于世界模型巨大的計算消耗，這也是當(dāng)前AI模型技術(shù)面臨的核心矛盾。DeepMind的研究人員坦言，用戶每使用一次，背后都有一塊專用的計算芯片為其服務(wù)。每一次看似輕松的“造世”，背后都依賴專用計算芯片的全功率運(yùn)轉(zhuǎn)。這決定了它在現(xiàn)階段，更像一扇僅供窺探未來的窄窗，而非可以隨意出入的大門。

游戲或成世界模型的首個試水行業(yè)

谷歌DeepMind、World Labs等領(lǐng)先的AI團(tuán)隊(duì)都認(rèn)為，世界模型可能會首先重塑游戲、影視行業(yè)。

傳統(tǒng)的3D資產(chǎn)創(chuàng)建與場景搭建是人力與時間密集型的核心環(huán)節(jié)。Project Genie展示的可能性是，將部分前期概念設(shè)計、場景原型構(gòu)建乃至動態(tài)分鏡預(yù)覽的過程，壓縮至幾分鐘甚至幾秒鐘。這并非要取代專業(yè)的創(chuàng)作引擎，而是可能重塑創(chuàng)作流程的起點(diǎn)，極大地釋放創(chuàng)意驗(yàn)證的速度。

DeepMind世界模型項(xiàng)目Genie 3的聯(lián)合負(fù)責(zé)人Shlomi Fruchter此前表示：“軟件開發(fā)，尤其是游戲開發(fā)，正在發(fā)生巨大變化，我預(yù)計在未來幾年，這種變化甚至可能是徹底性的?！?/p>

去年年底，World Labs正式推出了其首款商業(yè)產(chǎn)品、由生成式AI驅(qū)動的三維世界生成系統(tǒng)Marble。李飛飛表示，這項(xiàng)技術(shù)將影響Unity和Epic旗下Unreal等游戲引擎，“這一切都將被顛覆，模擬類游戲引擎確實(shí)到了該升級的時候了?！?/p>

除了游戲領(lǐng)域，xAI、英偉達(dá)等公司，也希望將世界模型嵌入機(jī)器人和自動駕駛汽車中。

閱84.22W

我要評論

反饋意見