近期,抖(dou)音集團(tuan)旗下圖片視(shi)頻工具(ju)即夢AI在官方社交媒體上(shang)發布了一條(tiao)新功能上(shang)線預告片。
視(shi)頻(pin)顯示,新功能采(cai)用了全(quan)新的多模(mo)態視(shi)頻(pin)生(sheng)成(cheng)模(mo)型OmniHuman,讓用戶僅需(xu)輸入一張(zhang)圖片(pian)和一段音頻(pin),就可(ke)以生(sheng)成(cheng)一條生(sheng)動(dong)的AI視(shi)頻(pin),有(you)望(wang)大幅提(ti)升AI短(duan)片(pian)的制作效率(lv)和質量(liang)。
OmniHuman技術主(zhu)頁信息顯示,該模(mo)型為字節跳動自研的閉(bi)源模(mo)型,可支持肖像、半身以及(ji)全身等(deng)不同(tong)尺寸(cun)的圖片輸入,并根(gen)據(ju)輸入的音頻(pin),在視頻(pin)中讓(rang)人物(wu)生成與之匹配的動作,包括演講、唱歌、樂(le)器(qi)演奏以及(ji)移動。
對(dui)于人(ren)物視頻生成中常見的手(shou)勢崩壞,也相比現有(you)方(fang)法取得(de)了顯著(zhu)的改(gai)善(shan)。
此外(wai),對動漫、3D卡(ka)通等(deng)非真人圖片(pian)輸入(ru)的(de)支持效果也較(jiao)為出(chu)色,生成(cheng)的(de)視頻能保(bao)持特(te)定風(feng)格和原(yuan)有的(de)運動模式。
根據技術(shu)主頁展示(shi)的演示(shi)效果(guo)來看,OmniHuman的生成(cheng)效果(guo)已經(jing)具(ju)有較高的自(zi)然度(du)。為防(fang)止該(gai)項技術(shu)被不當利用,字節跳動技術(shu)團隊(dui)在主頁中特別標注稱,OmniHuman將不會對外(wai)提供(gong)下載(zai)。
即夢AI相關(guan)負責人透露,該模型目前(qian)已具備(bei)較好的(de)表現,但在生成影視真實(shi)級別的(de)視頻上仍存在一定的(de)提升(sheng)空(kong)間(jian)。
由其支持的多(duo)模態視頻生成(cheng)功(gong)能會在(zai)即夢上以(yi)小范圍(wei)內(nei)測的形(xing)式進行調優調整,并逐(zhu)步(bu)開放。
該負責人同時表示(shi),即夢(meng)還(huan)會對這一(yi)功能設置嚴格的(de)(de)安全審核機(ji)制,并且對輸出(chu)的(de)(de)視頻標注水印以作(zuo)(zuo)提醒,從而確(que)保AI發揮正面、積極(ji)的(de)(de)作(zuo)(zuo)用,助力(li)視頻創作(zuo)(zuo)者(zhe)更好地(di)實(shi)現想象力(li)的(de)(de)表達。
稿源: 快科技