今天凌晨,OpenAI官網(wǎng)發(fā)布了視頻生成模型Sora。根據(jù)OpenAI公布的信息,Sora可以通過(guò)文字自動(dòng)生成60秒的視頻,并且?guī)в袕?fù)雜的運(yùn)鏡。從演示視頻來(lái)看,Sora生成的內(nèi)容的確讓人感到真假難分,效果十分驚人。
Sora是一種擴(kuò)散模型,它能夠通過(guò)從一開(kāi)始看似靜態(tài)噪聲的視頻出發(fā),經(jīng)過(guò)多步驟的噪聲去除過(guò)程,逐漸生成視頻。Sora不僅能夠一次性生成完整的視頻,還能延長(zhǎng)已生成的視頻。通過(guò)讓模型能夠預(yù)見(jiàn)多幀內(nèi)容,團(tuán)隊(duì)成功克服了確保視頻中的主體即便暫時(shí)消失也能保持一致性的難題。與GPT模型類(lèi)似,Sora采用了Transformer架構(gòu),從而實(shí)現(xiàn)了卓越的性能擴(kuò)展。
Sora的強(qiáng)大之處在于其能夠根據(jù)文本描述,生成長(zhǎng)達(dá)60秒的視頻,其中包含精細(xì)復(fù)雜的場(chǎng)景、生動(dòng)的角色表情以及復(fù)雜的鏡頭運(yùn)動(dòng)。
例如,基于一段描述時(shí)尚女性在東京光影交錯(cuò)的街道上漫步的文本,Sora能夠創(chuàng)造出一段充滿動(dòng)感和情緒的視頻。街道上的燈光和反射效果,以及人物的裝扮和表情,都被生動(dòng)地展現(xiàn)出來(lái)。
還有更加夢(mèng)幻的場(chǎng)景,如描述羊毛猛犸象在雪地中前行的文本,Sora能以其強(qiáng)大的視覺(jué)效果,呈現(xiàn)出寧?kù)o而壯觀的自然景象,動(dòng)物的細(xì)節(jié)、背景的雪山和樹(shù)木,以及光影效果都被精細(xì)地捕捉和再現(xiàn)。
目前,Sora已對(duì)網(wǎng)絡(luò)安全的紅隊(duì)成員開(kāi)放,以評(píng)估其可能存在的風(fēng)險(xiǎn)或潛在傷害。同時(shí),OpenAI也邀請(qǐng)了視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人使用Sora,收集他們的反饋,以使模型更好地服務(wù)于創(chuàng)意行業(yè)。
Sora能夠創(chuàng)造出包含多個(gè)角色、特定動(dòng)作類(lèi)型以及與主題和背景相符的詳細(xì)場(chǎng)景。這款模型不僅能理解用戶的指令,還能洞察這些元素在現(xiàn)實(shí)世界中的表現(xiàn)。
Sora對(duì)語(yǔ)言有著深刻的理解,能夠精準(zhǔn)地捕捉到用戶的需求,并創(chuàng)造出充滿生命力、情感豐富的角色。此外,Sora還能在同一視頻中創(chuàng)造出多個(gè)畫(huà)面,同時(shí)保持角色和視覺(jué)風(fēng)格的一致性。
當(dāng)然,Sora還不是完美的。比如在模擬復(fù)雜場(chǎng)景的物理效應(yīng),以及理解某些特定因果關(guān)系時(shí),它可能會(huì)遇到難題。舉個(gè)例子,視頻中的人物可能會(huì)咬一口餅干,但餅干上可能看不到明顯的咬痕。
在處理空間細(xì)節(jié),比如分辨左右時(shí),Sora也可能會(huì)出現(xiàn)混淆;在精確描述一段時(shí)間內(nèi)發(fā)生的事件,如特定的攝影機(jī)移動(dòng)軌跡時(shí),也可能顯得力不從心。(文:寶玉xp)
用戶只需給出提示詞就能自動(dòng)生成視頻。不過(guò)目前OpenAI還沒(méi)正式發(fā)布Sora,只有演示視頻。
關(guān)于我們 丨 聯(lián)系我們 丨 廣告合作 丨 誠(chéng)聘英才 丨 網(wǎng)站地圖
Copyright © 2018 武漢門(mén)戶網(wǎng) kudan.com.cn鄂ICP備16007396號(hào)-6