Sora神話：迄今最具破壞性的網(wǎng)絡(luò)威脅？

時間：2024年03月15日熱線：0311-85290821 來源：中國新聞周刊

　　中國新聞周刊記者/胡泳

　　發(fā)于2024.3.11總第1131期《中國新聞周刊》雜志

　　近期，美國人工智能研究公司OpenAI開發(fā)的Sora橫空出世，引發(fā)全球廣泛關(guān)注。人們一邊驚訝于它強大的文本轉(zhuǎn)視頻功能，一邊憂心于真實與虛假的界限是否會變得更加難以辨別。Sora到底是什么，是一支馬良“神筆”，還是一個超級怪物？

　　Sora的技術(shù)成就和局限性

　　Sora是OpenAI開發(fā)的一種先進(jìn)的文本轉(zhuǎn)視頻轉(zhuǎn)換模型，它的功能和應(yīng)用范圍展示了現(xiàn)代人工智能技術(shù)的新視野。該模型不僅限于生成幾秒鐘的視頻，還能制作長達(dá)一分鐘的視頻，在保持高視覺質(zhì)量的同時忠實再現(xiàn)用戶指令。對于使用者來說，它仿佛將夢想變?yōu)楝F(xiàn)實。

　　目前，Sora正處于獨家測試階段，只有部分紅隊人員(專門負(fù)責(zé)從對抗的角度對某一計劃、戰(zhàn)略、政策或產(chǎn)品提出質(zhì)疑的專家組)、視覺藝術(shù)家、設(shè)計師和電影制片人可以使用。這一戰(zhàn)略舉措可確保技術(shù)在廣泛發(fā)布之前，不僅達(dá)到而且超過創(chuàng)意和安全的最高標(biāo)準(zhǔn)。一旦Sora可以公開并為更多人所使用，勢將在全球范圍內(nèi)產(chǎn)生更加重大的影響。

　　Sora的技術(shù)實力證明了人工智能領(lǐng)域取得的長足進(jìn)步。Sora代表著從靜態(tài)圖像生成到動態(tài)視頻創(chuàng)作的飛躍，這是一個復(fù)雜的過程，不僅涉及視覺渲染，還涉及對運動和時間進(jìn)程的理解。這一進(jìn)步標(biāo)志著人工智能在解釋和可視化時間敘事方面的能力發(fā)生了巨大轉(zhuǎn)變，使Sora不僅僅是一個創(chuàng)建視覺效果的工具，更仿佛成為一個講故事的人。

　　該突破所帶來的沖擊波預(yù)計將橫跨視頻創(chuàng)作的各個方面，但它也很可能會從視頻發(fā)展到三維建模。從目前的演示來看，Sora可以理解提示中描述的元素是如何在物理世界中存在和運行的。這使得該模型能夠在視頻中準(zhǔn)確呈現(xiàn)用戶意圖的動作和行為。例如，它可以逼真地再現(xiàn)人奔跑的景象或自然現(xiàn)象的運動。此外，它還能精確呈現(xiàn)多個角色的細(xì)節(jié)、動作類型以及主題和背景的細(xì)微之處。

　　在發(fā)布Sora的同時，OpenAI公布了一份相應(yīng)的技術(shù)文檔，名為《作為世界模擬器的視頻生成模型》。這篇技術(shù)論文寫道：“我們發(fā)現(xiàn)，視頻模型在經(jīng)過大規(guī)模訓(xùn)練后，會表現(xiàn)出許多有趣的涌現(xiàn)能力。這些能力使Sora能夠模擬物理世界中的人、動物和環(huán)境的某些方面。”對Sora如何在內(nèi)部建立世界模型，英偉達(dá)高級研究員Jim Fan博士進(jìn)行了更深層次的猜測�！叭绻阏J(rèn)為Sora是一個像DALL-E一樣的創(chuàng)意玩具……那就想錯了。Sora 是一個數(shù)據(jù)驅(qū)動的物理引擎�！�

　　也就是說，雖然目前Sora被認(rèn)為僅僅是一個視頻生成模型，但像英偉達(dá)高級科學(xué)家Jim Fan這樣的計算機(jī)科學(xué)家相信，Sora實質(zhì)上是一個可學(xué)習(xí)的模擬器(simulator)或世界模型(world model)。這表明，人工智能有可能從大量真實世界的視頻和那些考量物理行為的視頻(如游戲引擎Unreal Engine中的視頻，雖然OpenAI并沒有明確提到這一點)中理解物理規(guī)律和現(xiàn)象。

　　果真如此的話，在不久的將來出現(xiàn)文本到3D的可能性非常大。屆時，不僅是多角度拍攝的視頻，就連虛擬空間(如元宇宙)中的視覺效果制作也能很快由人工智能輕松生成。

　　從OpenAI目前公布的視頻看，制作質(zhì)量相當(dāng)高。許多視頻都是電影級的；所有視頻都有著高分辨率，大多數(shù)視頻看起來都像是真實的——除非你用慢動作觀看。攝影鏡頭會平移和變焦，人物和場景在3D空間中的移動具備一致性，初看起來，你甚至意識不到自己觀看的是合成影像。

　　為了達(dá)到更高的逼真度，Sora 結(jié)合了兩種不同的人工智能方法。第一種是擴(kuò)散模型(diffusion model)，類似于DALL-E等圖像生成器中使用的那種。這類模型通過學(xué)習(xí)將隨機(jī)化的圖像像素逐漸轉(zhuǎn)換成連貫的圖像。第二種是轉(zhuǎn)換器架構(gòu)(transformer architecture)，用于對連續(xù)數(shù)據(jù)進(jìn)行上下文分析和拼接。例如，大型語言模型即使用轉(zhuǎn)換器架構(gòu)將單詞組合成一般可理解的句子。在視頻生成過程中，OpenAI將視頻片段分解成視覺的“時空補丁”(spacetime patches)，Sora的轉(zhuǎn)換器架構(gòu)可以對其進(jìn)行處理。

　　然而，與任何突破性技術(shù)一樣，Sora也有自己的局限性。盡管該模型具有先進(jìn)的功能，但有時仍難以準(zhǔn)確模擬更為復(fù)雜的場景的物理特性。這可能導(dǎo)致視覺效果雖給人留下深刻印象，但偶爾也會違背物理定律或無法準(zhǔn)確呈現(xiàn)因果場景。例如，視頻中的角色與物體的交互方式在物理上或許并不可行，也做不到隨著時間的推移而保持一致。

　　所以，雖然Sora號稱是在學(xué)習(xí)物理，但還并不能準(zhǔn)確地建立物理模型。OpenAI的官方博客指出，它在模擬物理、理解因果關(guān)系和其他簡單細(xì)節(jié)方面遇到了困難。例如，要求生成一個人咬餅干的視頻，卻發(fā)現(xiàn)餅干上沒有留下任何咬痕；或是一名男子在跑步機(jī)上以錯誤的方式跑步。它還可能對提示的空間細(xì)節(jié)感到困惑，如跟隨特定的攝像頭軌跡等。

　　Sora在多個戰(zhàn)場攻城略地

　　雖非盡善盡美，人們?nèi)匀缓茈y不被Sora早期示例的質(zhì)量以及它最終對視頻、電影、游戲等產(chǎn)業(yè)的可能改寫所震撼。

　　在視頻方面，OpenAI以外的其他公司，從谷歌等巨頭到Runway等初創(chuàng)公司，都已經(jīng)推出了文本到視頻的人工智能項目。但 OpenAI表示，Sora的獨特之處在于其驚人的真實感，以及它能夠生成比其他模型通常拿出的簡短片段更長的剪輯。

　　例如，OpenAI公布的一個視頻片段，提示要求制作“一個矮矮的毛茸茸的怪物跪在紅蠟燭旁邊的動畫場景”，還有一些詳細(xì)的舞臺指示(“睜大眼睛和張開嘴巴”)以及對所需氛圍的描述。結(jié)果，Sora創(chuàng)造了一種皮克斯風(fēng)格的生物，似乎具有來自《怪獸電力公司》(Monsters, Inc。)中的怪物的DNA。當(dāng)《怪獸電力公司》2001年上映時，皮克斯曾經(jīng)大肆宣揚制作怪物皮毛的超復(fù)雜紋理有多么困難，因為在生物移動時，這些紋理也會隨之變化。皮克斯的“巫師”們花了數(shù)月時間才把它做得恰到好處。而OpenAI的新文本轉(zhuǎn)視頻機(jī)器似乎輕易就做到了這一點。這當(dāng)中并沒有編碼，Sora完全是從觀察到的大量數(shù)據(jù)中學(xué)習(xí)3D幾何和一致性的。

　　盡管場景確實令人印象深刻，但Sora的能力中最令人震驚的是那些它尚未接受過訓(xùn)練的能力。如前所述，Sora由OpenAI的DALL-E 3圖像生成器使用的擴(kuò)散模型版本以及GPT-4的基于Transformer的引擎驅(qū)動，它不僅能夠制作出滿足提示需求的視頻，而且在這樣做的同時，還展現(xiàn)了對電影語法的新型理解，這可以轉(zhuǎn)化為講故事的才能。

　　比如，另一個視頻根據(jù)“一個色彩絢麗的珊瑚礁紙藝世界，充滿了色彩繽紛的魚類和海洋生物”創(chuàng)建。研究人員發(fā)現(xiàn)，Sora通過鏡頭角度和時間安排創(chuàng)造了敘事主旨�！皩嶋H上有多個鏡頭變化——這些變化不是縫合在一起的，而是由模型一次性生成的”，“我們沒有告訴它要這樣做，它就自動完成了�！�

　　OpenAI團(tuán)隊沒有展示并且可能在相當(dāng)長一段時間內(nèi)不會發(fā)布的Sora的一個功能是，從單個圖像或一系列幀生成視頻的能力。這將提高講故事的能力：你可以準(zhǔn)確地畫出你的想法，然后將其變?yōu)楝F(xiàn)實。從講故事的情形來看，Sora可以顯示對剪輯和節(jié)奏的理解，似乎具有初步的導(dǎo)演能力。

　　然而，文本轉(zhuǎn)視頻要威脅到實際的電影制作，將需要很長一段時間，甚至可能永遠(yuǎn)都不會出現(xiàn)這種情況。你無法通過拼接120個一分鐘時長的Sora剪輯來制作一部連貫的電影，因為模型不會以完全相同的方式響應(yīng)提示——連續(xù)性是不可能的。但是，對于Sora和類似程序來說，時間限制并不是障礙，它們完全可以用來改造 TikTok、Reels和其他社交平臺。在過去，為了制作一部專業(yè)電影，你需要非常昂貴的設(shè)備，而這一類的模型將使在社交媒體上制作視頻的普通人創(chuàng)作出非常高質(zhì)量的內(nèi)容。

　　考慮到其進(jìn)展速度，想象在幾個月內(nèi)人工智能模型能夠創(chuàng)建長達(dá)五到十分鐘的多場景、多角色的復(fù)雜視頻并不算瘋狂。然而，從孤立的剪輯到制作一種以故事形式運行的媒介，讓觀眾在觀看時不會脫離其中，還有漫長的路要走。除非Sora成為一款為創(chuàng)作者提供完全定制和控制的開源應(yīng)用程序，否則它不會顛覆電影產(chǎn)業(yè)。但顯然，該技術(shù)可以加快經(jīng)驗豐富的電影制作人的工作速度，同時完全取代經(jīng)驗不足的數(shù)字藝術(shù)家。

　　另一個常常被提及、可能同樣遭遇顛覆的行業(yè)是視頻游戲。正如OpenAI的論文所述，“Sora 可以用基本策略控制Minecraft(一款電子游戲)中的玩家，同時以高保真度渲染世界及其動態(tài)”。顯然，這只是其游戲潛力的開始。未來的視頻游戲機(jī)可能會使用擴(kuò)散技術(shù)實時生成交互式視頻流，而不是由藝術(shù)家手工渲染數(shù)十億個多邊形。

　　一些人推測Sora接受了視頻游戲引擎的訓(xùn)練，特別是Epic Games的虛幻引擎5(Unreal Engine 5)。雖然Sora幾乎肯定不會使用視頻游戲引擎來打造令人著迷的感覺，但視頻游戲世界可能被用來幫助訓(xùn)練Sora的底層模型。某些Sora演示看起來確實與現(xiàn)有的視頻游戲世界非常相似。2023年，游戲開發(fā)者已經(jīng)受到裁員的打擊，Sora可能會給他們帶來進(jìn)一步的災(zāi)難。當(dāng)然，它也可以顯著降低進(jìn)入門檻。

　　總體來看，Sora的核心是一個多方面的人工智能系統(tǒng)，能夠理解和執(zhí)行跨越不同領(lǐng)域的任務(wù)。與以前專門用于文本生成、圖像識別或策略游戲等特定任務(wù)的模型不同，Sora旨在彌合這些功能，提供更全面的方法。這是通過機(jī)器學(xué)習(xí)的尖端技術(shù)實現(xiàn)的，包括深度學(xué)習(xí)、強化學(xué)習(xí)和遷移學(xué)習(xí)，它們使得Sora能夠利用在一個領(lǐng)域獲得的知識來提高另一領(lǐng)域的表現(xiàn)。

　　Sora最引人注目的方面之一是它的適應(yīng)性。OpenAI強調(diào)了創(chuàng)建能夠從最少的輸入中學(xué)習(xí)并輕松適應(yīng)新挑戰(zhàn)的人工智能系統(tǒng)的重要性。Sora體現(xiàn)了這一原則，展示了理解上下文、生成相關(guān)響應(yīng)甚至從交互中學(xué)習(xí)的能力。這種適應(yīng)性不僅增強了Sora在各種任務(wù)中的性能，還減少了大量再訓(xùn)練的需要，使其成為人工智能應(yīng)用更高效、更具成本效益的解決方案。

　　2024：不再可能區(qū)分人工智能和現(xiàn)實

　　然而，不管Sora有多么神奇，公司外部幾乎沒有人試用過它——這始終是一個警示信號。

　　從某種意義上說，OpenAI大可改名CloseAI，盡管其產(chǎn)品的功能強大到足以顛覆我們對世界的看法，但沒人告知我們產(chǎn)品的內(nèi)部運作方式是怎樣的。公司外部的人員沒有機(jī)會研究或測試 Sora，了解它是如何構(gòu)建的，與以前的產(chǎn)品進(jìn)行比較也是不可能的。我們只是知道，與大語言模型類似，OpenAI注入Sora的計算能力越強，其輸出的質(zhì)量就越高。

　　然而它的訓(xùn)練數(shù)據(jù)是從哪來的呢？公司含糊其詞。發(fā)言人只是說該模型是根據(jù)“經(jīng)許可的和可公開獲取的內(nèi)容”進(jìn)行訓(xùn)練的；當(dāng)被問及潛在危害時，發(fā)言人表示公司仍在努力解決“錯誤信息、仇恨內(nèi)容和偏見”。所有這些，就像當(dāng)初ChatGPT問世一樣，引發(fā)了人們對深度造假、版權(quán)侵權(quán)、藝術(shù)家生計、隱藏偏見等方面極其熟悉但又頗為嚴(yán)重的擔(dān)憂。

　　OpenAI表示，“我們從大型語言模型中汲取靈感，通過在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練來獲得通用能力”。所謂“汲取靈感”是對Sora訓(xùn)練數(shù)據(jù)來源的唯一回避性提及。在論文中，OpenAI進(jìn)一步指出，“訓(xùn)練文本到視頻生成系統(tǒng)需要大量的視頻和相應(yīng)的文字說明”。大量視覺數(shù)據(jù)的唯一來源可以在互聯(lián)網(wǎng)上找到，這也暗示了Sora的來源。

　　此前，OpenAI因使用《紐約時報》文章訓(xùn)練GPT-2和GPT-3未付費而面臨訴訟。到目前為止，從整個互聯(lián)網(wǎng)上搜索訓(xùn)練數(shù)據(jù)的理由是，這些數(shù)據(jù)都是公開的。然而“可公開獲取”并不總是等同于“公域”。是否有藝術(shù)家、攝影師、表演者和電影制片人的作品被用于訓(xùn)練Sora？他們是否允許其創(chuàng)意作品以這種方式被使用？

　　看起來新的Sora和舊時的GPT在做同樣的事情，只不過此次是專門針對視頻。也和以前一樣，OpenAI對自己的訓(xùn)練模型所依據(jù)的數(shù)據(jù)諱莫如深。

　　蒙著神秘面紗的Sora也許會成為一臺想象引擎，一場電影革命，或者一架視頻機(jī)器。但眼下最好將其視為一種挑釁或一波廣告攻勢。在很大程度上，OpenAI不是在發(fā)布產(chǎn)品，而是在制造神話。公眾所有的看熱鬧都近似一種狗仔隊行為。

　　所以，盡管我對Sora印象非常深刻，但我并不完全相信這種炒作。需要等到普通人可以使用這個工具，因為現(xiàn)在公眾對 Sora的看法是經(jīng)過精心策劃的。OpenAI首席執(zhí)行官山姆·阿爾特曼(Sam Altman)本人和該公司在新聞稿中分享了最精彩的視頻。他們向一小群經(jīng)過精心選擇的用戶提供了訪問權(quán)限�；蛟S可以把這些當(dāng)作一個“偉大的科技公司產(chǎn)品演示”，而我們并不知道當(dāng)我們擁有這樣的工具時，生成的視頻是否會那么好。

　　在這種情況下，我們不由得擔(dān)心Sora構(gòu)建中的安全和倫理考量。一個持久的問題是虛假信息，比如深度偽造。與生成式人工智能中的其他技術(shù)一樣，沒有理由相信文本到視頻不會繼續(xù)快速改進(jìn)，從而讓我們越來越接近難以區(qū)分真假的時代。想象一下，這項技術(shù)如果與人工智能驅(qū)動的聲音克隆相結(jié)合，是否會在構(gòu)建那些人們從未做過的事情的深度偽造方面開辟出一條全新的道路？

　　Sora的視頻在描述有大量動作的復(fù)雜場景時仍然會出現(xiàn)一些奇怪的故障，這表明這類深度偽造視頻目前還可被檢測出來。然而長遠(yuǎn)看，必將出現(xiàn)魚目混珠的局面。隨著Sora在2024年用人工智能生成的視頻讓世界幾乎不再可能區(qū)分人工智能和現(xiàn)實，信息時代已經(jīng)結(jié)束，而虛假信息時代正式開始了。

　　到2030年，大多數(shù)人都將知道，使用免費的人工智能工具可以偽造任何視頻、任何聲音或任何陳述。他們每天都會在網(wǎng)上生成難以計數(shù)的虛構(gòu)，而且其數(shù)量在未來的更多年里只會激增。

　　我們生活在這樣的時代，人類知識的總和幾乎完全可以從我們口袋里的小裝置中獲取，但人工智能卻有可能毒害這口井。這并不是新鮮事——Sora不是互聯(lián)網(wǎng)面臨的第一個威脅，也不會是最后一個，但它很可能是迄今為止最具破壞性的。

　　從媒介素養(yǎng)的角度來看，這將使得驗證任何用戶生成的內(nèi)容變得極為復(fù)雜，因為現(xiàn)在用戶可以生成他們想要的任何內(nèi)容。由于我們現(xiàn)在生活的整個世界都是后真相的，所以很多人致力于在故事中編造虛假的敘述。圖像比文本更難，因為你必須具備Photoshop或類似軟件的應(yīng)用知識，它存在進(jìn)入障礙。而視頻是一個更高量級的難點。制作虛假視頻需要花費大量時間、專業(yè)知識和金錢。但有了Sora及類似應(yīng)用，現(xiàn)在只需輸入提示并獲取即可。

　　這將如何改變新聞業(yè)？我相信Sora使各路議程設(shè)定者能夠生成比過去多得多的內(nèi)容。而人工智能生成的營銷者和影響者內(nèi)容的爆炸式增長，這可能有效排擠合法的新聞和媒體。

　　可嘆的是，人們對這樣的可怕未來不僅渾然不覺，反而拼命歡呼每一波新的人工智能技術(shù)浪潮的到來。新技術(shù)總是具有天然的眼球吸引力，各種大小媒體的流量追逐并不新鮮。然而，在隨波逐流當(dāng)中，鮮有人分析人工智能報道的框架。有誰在認(rèn)真對這些技術(shù)的工作原理進(jìn)行澄清嗎？存在令人信服的對一些真正離譜的炒作的有力回應(yīng)嗎？

　　結(jié)果是什么呢？公眾得到的是科幻版的人工智能故事，最終被排除在圍繞倫理、使用和未來工作的重要討論之外。這一切都在加劇對人工智能理解的好萊塢化。

　　(作者系北京大學(xué)新聞與傳播學(xué)院教授)

　　《中國新聞周刊》2024年第9期

　　聲明：刊用《中國新聞周刊》稿件務(wù)經(jīng)書面授權(quán)

編輯：【郝燁】