當內容產(chǎn)業(yè)開(kāi)始進(jìn)入AI模型化階段,大家拼的不僅是流量,也是數據、算法和核心創(chuàng )意。我們面臨的挑戰不僅是某種技術(shù)的變革,也是思維和意識的轉型。
■ 潮聲 | 執筆 謝丹穎
人工智能(AI)推動(dòng)視頻生成技術(shù)又邁出新的一步。
不久前一條發(fā)布在社交媒體平臺的AI視頻中,角色集體開(kāi)口戲謔:“我們不過(guò)是0和1的排列組合?醒醒吧,伙計?!?/p>
讓它們“開(kāi)口說(shuō)話(huà)”的是美國谷歌公司在今年5月發(fā)布的視頻生成模型Veo 3。其最大的特點(diǎn)是在視頻中融合音頻,直接生成話(huà)語(yǔ)流暢、口型自然的人物,且自帶符合場(chǎng)景特征的音效。而此前,AI視頻一直是默片,需要后期配音,再借助工具讓角色嘴唇動(dòng)作看起來(lái)合理。
2022年以來(lái),以ChatGPT聊天機器人程序為代表的生成式人工智能引發(fā)社會(huì )關(guān)注。行業(yè)像被按下了快進(jìn)鍵,幾乎每個(gè)月都有相關(guān)熱點(diǎn)出現。相比之下,視頻生成技術(shù)在最初一段時(shí)間里不溫不火。不過(guò),歷經(jīng)近3年的發(fā)展,AI視頻已逐漸從最初類(lèi)似PPT、動(dòng)圖的形態(tài),進(jìn)化至能夠直接產(chǎn)出合理視頻?;P湍芰Φ牡?,帶來(lái)了畫(huà)面真實(shí)感、視頻情緒度和流暢度的提升,影響面不斷擴展,滲透性持續增強。
如今,學(xué)界、業(yè)界已在眺望AI視頻迎來(lái)“技術(shù)奇點(diǎn)”的時(shí)刻。我們該如何理解視頻生成模型的核心突破意義?它又會(huì )給人們生產(chǎn)生活帶來(lái)什么影響?
忽如一夜春風(fēng)來(lái)
2023年初,AI生成視頻與生成圖像,幾乎在同一時(shí)期進(jìn)入公眾視野——英國人工智能公司Stability AI的“穩定擴散模型”(Stable Diffusion)帶火了“文生圖”,美國人工智能公司Runway的視頻生成模型“Gen-1”則是激起了“人人都能制作電影大片”的無(wú)限遐想。
彼時(shí),“穩定擴散模型”用時(shí)數月,讓AI生成的圖像幾近照片級真實(shí)。Runway創(chuàng )始人不由興奮:“我們已經(jīng)看到了圖像生成模型的爆發(fā),相信2023年將會(huì )是視頻之年?!?/p>
然而,圖像生成模型的成功并沒(méi)能引發(fā)AI生成視頻技術(shù)的迅速成熟。
起初,AI視頻主要分為兩條技術(shù)路徑:或是與“文生圖”的技術(shù)一脈相承,著(zhù)重“還原呈現”,打上“擴散模型”(Diffusion Model)的烙??;或是沿用ChatGPT的技術(shù)脈絡(luò ),采用“自回歸模型”(Autoregressive Model)方法,講究“邏輯推理”,靠大參數、大數據,從零開(kāi)始構建模型體系。
“走純粹的‘自回歸’路徑,至今尚未出現很好的產(chǎn)品?!闭憬髮W(xué)藝術(shù)與考古學(xué)院副教授沈華清說(shuō)。同時(shí),他認為使用更普遍的“擴散模型”缺陷也明顯。
沈華清自稱(chēng)“無(wú)門(mén)無(wú)派、興趣廣泛的教書(shū)先生”,從“好奇嘗鮮”變成“深度沉迷”。沈華清類(lèi)比幀動(dòng)畫(huà)原理,向記者解釋“擴散模型”的技術(shù)難點(diǎn):“按最低的24fps(幀/秒)算,5秒的視頻需要120張圖。每張圖間都要保持相互的人物一致、動(dòng)作連貫,連光影的斑駁細節都不能穿幫——這相當于讓120位畫(huà)家同時(shí)畫(huà)同一幅畫(huà),每一幅每一筆都要嚴絲合縫?!?/p>
的確,靜態(tài)圖像生成只需解決“是什么”的問(wèn)題。視頻卻要在此基礎上,在回答“如何變化”命題的同時(shí),保證主體的統一以及符合常識的運動(dòng)。2023年底,與美國人工智能初創(chuàng )公司Midjourney同名的“文生圖”工具已經(jīng)能生成以假亂真的圖像。同期,美國AI初創(chuàng )公司Pika Labs發(fā)布的AI視頻產(chǎn)品Pika 1.0還局限在風(fēng)格特定的3秒片段上。
沈華清回憶起那段使用經(jīng)歷,即便先用“文生圖模型”生成了不錯的分鏡圖,再通過(guò)“圖生視頻模型”拼接成片,但在最終呈現的幾秒視頻里,人物總是畸形、畫(huà)面常有畸變,“這哪是人在動(dòng),分明是算法在抽搐,看得人脊背發(fā)涼”。
生成視頻技術(shù)始終“小步快走”,沒(méi)有根本性的突破。就在大家快失去耐心時(shí),時(shí)間來(lái)到2024年2月:美國開(kāi)放人工智能研究中心OpenAI繼ChatGPT后,發(fā)布“文生視頻模型”Sora。
這一全新模型用ChatGPT背后的神經(jīng)網(wǎng)絡(luò )架構Transformer替換傳統“擴散模型”中的卷積U-Net網(wǎng)絡(luò ),迭代出一條新路徑DiT(Diffusion Transformer)。如此,Sora可以精準根據文本指令,生成最長(cháng)為1分鐘的高清視頻,畫(huà)面逼真、絲滑連貫。
業(yè)內有人稱(chēng):“AI視頻的‘GPT時(shí)刻’,來(lái)了?!?/p>
忽如一夜春風(fēng)來(lái)。眼下,騰訊“混元”、華為“諾亞”……各家廠(chǎng)商在大模型領(lǐng)域謀局落子,可謂“神仙打架”。其中,又以擁有海量視頻數據的字節跳動(dòng)、快手增勢最為迅猛,其分別在2024年3月、6月推出“即夢(mèng)”和“可靈”,迅速躋身AI視頻產(chǎn)品的第一梯隊。
一位技術(shù)人員笑稱(chēng),這條新路徑似乎達成了一個(gè)“成年”模型的“既要又要”——用大語(yǔ)言模型里學(xué)到的世界知識來(lái)幫助生成視覺(jué)世界?!耙曨l就這樣成了從大模型根上生長(cháng)出來(lái)的一項功能,上升軌跡飛快?!?/p>
但即便是Sora問(wèn)世一年后的今天,一鍵“文生視頻”仍難有良品?!爱吘?,語(yǔ)言是高度壓縮的信息?!鄙蛉A清說(shuō),一千個(gè)讀者眼中尚且有一千個(gè)哈姆雷特,將抽象文字直接轉為具體的時(shí)空連續體,這對算力和工程化的要求實(shí)在太高,“不是誰(shuí)都能做的,也不是在短時(shí)間內就能做好的?!?/p>
是助手,更是共創(chuàng )者
令人振奮的AI技術(shù)革新終歸要落地產(chǎn)業(yè),才能產(chǎn)生實(shí)際價(jià)值。
一位技術(shù)人員告訴記者,不同于此前大模型簡(jiǎn)單直接的“文本輸入—文本輸出”交互邏輯,視頻生成技術(shù)因視覺(jué)模態(tài)的復雜性,用起來(lái)要棘手得多。而“能用”與“好用”之間,又橫亙著(zhù)訓練數據、算力、成本控制等多重障礙。
眼下,單個(gè)的AI視頻生成工具還處在“宣傳視頻都很好,但實(shí)際一點(diǎn)都不好用”的階段。
“套用多種工具很有必要?!敝袊鴤髅酱髮W(xué)導演系科班出身的羅翀,拍過(guò)豆瓣8.3分傳記式宣傳片、拿過(guò)中國紀錄片學(xué)院獎。今年年初,他從杭州某大廠(chǎng)離開(kāi),轉型自由AI導演。在制作多個(gè)商片的過(guò)程中,他迅速摸到了生成視頻的一條路子。
羅翀介紹,不同視頻生成模型的優(yōu)缺點(diǎn)各異。比如,快手的“可靈”強在對多鏡頭、物理規律的理解;美國人工智能公司Runway的模型性?xún)r(jià)比更高,生成速度更快。
但他也告訴記者,基于A(yíng)I生成產(chǎn)品的不穩定性,即便經(jīng)過(guò)多種AI視頻制作工具的多次打磨、篩選,還是需要借助PS等編輯軟件再進(jìn)行微調,才能得到更滿(mǎn)意的結果,以生成“完全可以和傳統商片掰掰手腕的成品”。
“雖然缺少故事線(xiàn),但未來(lái),意識流的賽博視頻或將成為一個(gè)門(mén)類(lèi)?!绷_翀說(shuō),自己仿佛遇見(jiàn)了共創(chuàng )者,“我負責想象、嘗試,AI負責調整、展現,降本增效的同時(shí),極大地拓寬創(chuàng )作的自由度?!?/p>
院線(xiàn)影視講究起承轉合,質(zhì)量要求更高。但在浙江,利用AI制作的視頻仿佛距離“院線(xiàn)水準”不算太遠。一家老牌影視企業(yè),便提供了可供分析的落地樣本。
第27屆上海國際電影節啟幕前夕,浙江博采傳媒有限公司一條3分鐘創(chuàng )意短片《兩代悟空對戰》,在B站傳播量近百萬(wàn)。網(wǎng)友紛紛贊嘆所用技術(shù)之精妙——無(wú)論是六小齡童飾演的86版美猴王,還是網(wǎng)游《黑神話(huà):悟空》的天命人,“大圣風(fēng)采依舊”。
記者也去湊了個(gè)熱鬧。在湖州市德清縣博采AI虛擬影視基地,導演的監視器中,兩代悟空對戰正酣,遠處宮殿群光影流動(dòng)。但現場(chǎng),只有兩位動(dòng)捕老師,拿著(zhù)特殊棍棒,在一塊“空地”“打”得激烈,無(wú)論是角色樣貌、服飾,還是建筑、云霧,都是LED顯示屏“附上”的畫(huà)面。工作人員用鼠標一點(diǎn),切換只在分秒間,演員置身其中,畫(huà)面真假難辨。
“單靠AI,肯定跑不出這樣的片子?!辈┎蓚髅窖邪l(fā)中心總監王偉東告訴記者,《兩代悟空對戰》融合了影視行業(yè)所用的4D掃描、Holo身體掃描、LED拍攝等技術(shù),“我們稱(chēng)之為‘虛擬制片’?!睋榻B,團隊專(zhuān)門(mén)開(kāi)發(fā)了一套虛擬制片管理軟件Kmoke,融合各類(lèi)AI工具,“效率直接提高了3倍、成本起碼節省了三分之一?!?/p>
博采傳媒總裁辦項目統籌牛聰說(shuō),在電影創(chuàng )作中,相比導演和制片,AI其實(shí)是做好了一份助理的工作——通過(guò)AI實(shí)時(shí)預演,讓創(chuàng )意的好壞“盡在眼前”;傳統影視的各個(gè)環(huán)節也從“線(xiàn)性等待”轉為“動(dòng)態(tài)協(xié)同”,無(wú)論是調整劇本還是場(chǎng)景,在A(yíng)I的“協(xié)同”下都能更高效完成。
“今年,我們引入AI大模型,繼續迭代一整套AI創(chuàng )作系統‘墨客’,實(shí)現連貫性的劇本創(chuàng )作,并產(chǎn)出精準可控的視頻?!迸B斕寡?,針對現在A(yíng)I視頻像素細節不夠的問(wèn)題,“通過(guò)改進(jìn)的AI增分技術(shù),分辨率能從720p躍升為5K,直接達到電影放映級畫(huà)面質(zhì)量?!?/p>
拉平起始點(diǎn),重新競爭
在一份技術(shù)報告中,美國開(kāi)放人工智能研究中心OpenAI對AI視頻的定義是“世界模擬器”。這個(gè)遠景表明,AI視頻有潛力成為一種通用人工智能,理解世界、改變世界。
這種顛覆性在技術(shù)細節中確有顯露。有從業(yè)者根據Sora產(chǎn)品表現出的不錯的“3D一致性”,推測它或許能通過(guò)參數的再疊加,沖破智能閾值,觸摸到對世界完整理解和創(chuàng )造的邊界。
“大力出奇跡”真能無(wú)往不利?學(xué)界對此的質(zhì)疑聲也不少。
北京通用人工智能研究院院長(cháng)朱松純曾明確:過(guò)去,“大數據+大算力+大模型”的思維定式,過(guò)度簡(jiǎn)化了通用人工智能的復雜性。美國互聯(lián)網(wǎng)公司Meta人工智能研究負責人楊樂(lè )昆更是直言:“生成式模型是建立世界模型的死胡同,通過(guò)生成像素來(lái)模擬世界的動(dòng)作,既浪費又注定失敗?!?/p>
實(shí)踐也證明,AI視頻實(shí)現如此“暴力美學(xué)”的代價(jià)極高:運行一個(gè)動(dòng)輒超百億參數規模的視頻生成模型,尖端顯卡要“跑”數十秒甚至數分鐘,才能制作一個(gè)一分鐘、分辨率高達1080p的視頻,算力成本高昂得驚人。
不可忽視的還有生成式AI的固有癥結——“幻覺(jué)”?!?.8<0.09”的數學(xué)對答、四條腿的螞蟻圖、在跑步機上倒著(zhù)跑的人——這些都是AI制作可能導致的可笑錯誤。它沒(méi)有自主意識,對現實(shí)世界“知之甚少”,擅長(cháng)計算卻拙于糾錯。北京大學(xué)新聞與傳播學(xué)院教授胡泳坦言,這類(lèi)低級錯誤或許會(huì )在技術(shù)的迭代中減少,但永遠無(wú)法徹底修復,失敗風(fēng)險始終存在。
技術(shù)障礙外,高質(zhì)量訓練數據又從何而來(lái)?一如ChatGPT問(wèn)世引發(fā)的深度造假、版權侵權、隱藏偏見(jiàn)等法律倫理爭議,AI視頻同樣繞不開(kāi)這些熟悉而嚴重的“老問(wèn)題”。
但不可否認,AI視頻正加速被市場(chǎng)接納,其價(jià)值與影響力持續攀升?!?025中國廣告主營(yíng)銷(xiāo)趨勢調查報告》顯示:今年4月,超50%的廣告主已將生成式AI納入創(chuàng )意生產(chǎn),AI營(yíng)銷(xiāo)內容占比超過(guò)10%。
同期,美國電影藝術(shù)與科學(xué)學(xué)院宣布,2026年第98屆奧斯卡金像獎將正式允許AI參與創(chuàng )作的電影參評。這標志著(zhù)AI正式進(jìn)入主流評價(jià)體系。但評審標準中,“將綜合考慮人類(lèi)創(chuàng )作者在創(chuàng )意創(chuàng )作過(guò)程中所發(fā)揮的核心作用,來(lái)決定最終的獲獎?wù)摺钡奈⒚畋硎?,也暗示?zhù)人類(lèi)藝術(shù)本質(zhì)的不可替代性。
AI視頻正處落地的“中場(chǎng)哨”階段。熱潮過(guò)后,玩家紛紛沉下心來(lái),打磨產(chǎn)品的基礎能力、拓寬模型的適應邊界、重構與用戶(hù)的長(cháng)期關(guān)系。
可以確定的是,AI正成為創(chuàng )作的基底。正如快手聯(lián)合創(chuàng )始人程一笑將“可靈”定位為“更多行業(yè)創(chuàng )作的新基礎設施”,AI將拉平所有人的起始點(diǎn)。
“我們不要放大,也不要低估AI的影響?!?年前,沈華清將AI帶入課堂,鼓勵學(xué)生借助工具,在學(xué)習與創(chuàng )作中嘗試拓展、延伸、融合。他認為,在這個(gè)技術(shù)愈發(fā)平權的時(shí)代,競爭已轉向快速捕捉創(chuàng )意并落地的能力,考驗的是使用者的積累——“擁有審美、分析、判斷能力,成為跨領(lǐng)域、跨學(xué)科的融合通才,是AI時(shí)代的新要求”。