經(jīng)濟導(dǎo)報記者 劉勇
這個春節(jié)假期什么最火?那肯定是Sora!OpenAI發(fā)布的人工智能文字生成視頻大模型。
美國當?shù)貢r間2024年2月15日,OpenAI正式發(fā)布文生視頻模型Sora,并發(fā)布了48個文生視頻案例和技術(shù)報告,正式入局視頻生成領(lǐng)域。
Sora能夠根據(jù)提示詞可以快速制作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻,視頻中可包含多個角色、特定的動作、主題和背景,在單個視頻中Sora還可創(chuàng)建多個鏡頭,多角度保留角色和視覺的風格!澳胲垺绷诵袠I(yè)目前大概只有平均“4s”的視頻生成長度。
此外,還可以使用Sora連接兩個輸入視頻,在具有完全不同主題和場景組成的視頻之間實現(xiàn)無縫過渡。
百度百科的解釋是,Sora繼承了DALL-E 3的畫質(zhì)和遵循指令能力,可以根據(jù)用戶的文本提示創(chuàng)建逼真的視頻。該模型可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復(fù)雜場景,能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。
Sora對于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來無限可能,其是OpenAI“教AI理解和模擬運動中的物理世界”計劃的其中一步,也標志著人工智能在理解真實世界場景并與之互動的能力方面實現(xiàn)飛躍。
針對此次Sora所帶來的討論,360創(chuàng)始人周鴻祎在社交網(wǎng)絡(luò)上也分享了自己的看法。他認為,Sora的誕生意味著AGI(通用人工智能)實現(xiàn)可能從10年縮短至一兩年。
談到Sora最大的優(yōu)勢,周鴻祎表示,以往文字視頻軟件都是在2D平面上對圖形元素進行操作,可以把視頻看成多個真實圖片的組合,并沒有真正掌握這個世界的知識。但Sora產(chǎn)生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現(xiàn)汽車撞毀坦克這樣的情況,“一旦人工智能接上攝像頭,把所有的電影都看一遍,把各視頻平臺的視頻都看一遍,對世界的理解將遠遠超過文字學習。一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一張圖,這就離AGI真的不遠了,不是10年20年的問題,可能一兩年很快就可以實現(xiàn)。”
而在業(yè)內(nèi)專家看來,認為AGI能在一兩年內(nèi)實現(xiàn)的觀點過于樂觀。中國人工智能產(chǎn)業(yè)聯(lián)盟安全治理委員會專委會副主委、浙江大學教授潘恩榮認為,AGI在一兩年內(nèi)實現(xiàn)不能作為一種真實的預(yù)測!耙驗槲覀冎v的通用人工智能往往指的是‘人’作為主體所作用的能力,然而現(xiàn)在人工智能能實現(xiàn)的事情,更像是‘物’的能力。”
不過也有人擔心,Sora大面積使用,AGI的實現(xiàn)也是必然,只是時間長短的問題。那么一旦AGI到來,是否會真的出現(xiàn)電腦的自我意識覺醒?畢竟人類是通過視覺感知認知世界,才能把一個具體的世界(畫面)和大腦里的文字等抽象概念進行連接的。也就是說畫面視頻和文字是互相對應(yīng)的。而sora已經(jīng)解決了抽象到具體表象,也能表象到抽象!這是什么意思?它已經(jīng)能理解人類世界了。這就是他自我意識的覺醒。
那么問題來了,一旦AGI實現(xiàn),真的會出現(xiàn)電影中的情景——人工智能的自我意識覺醒嗎?