OmniHuman數字人模型即將上線：一張圖+一段音頻即可生成視頻

[日期：2025-02-10] 閱讀：371次[字體：大中小]

近期，抖(dou)音集團(tuan)旗下圖片視(shi)頻工具(ju)即夢AI在官方社交媒體上(shang)發布了一條(tiao)新功能上(shang)線預告片。

視(shi)頻(pin)顯示，新功能采(cai)用了全(quan)新的多模(mo)態視(shi)頻(pin)生(sheng)成(cheng)模(mo)型OmniHuman，讓用戶僅需(xu)輸入一張(zhang)圖片(pian)和一段音頻(pin)，就可(ke)以生(sheng)成(cheng)一條生(sheng)動(dong)的AI視(shi)頻(pin)，有(you)望(wang)大幅提(ti)升AI短(duan)片(pian)的制作效率(lv)和質量(liang)。

OmniHuman技術主(zhu)頁信息顯示，該模(mo)型為字節跳動自研的閉(bi)源模(mo)型，可支持肖像、半身以及(ji)全身等(deng)不同(tong)尺寸(cun)的圖片輸入，并根(gen)據(ju)輸入的音頻(pin)，在視頻(pin)中讓(rang)人物(wu)生成與之匹配的動作，包括演講、唱歌、樂(le)器(qi)演奏以及(ji)移動。

對(dui)于人(ren)物視頻生成中常見的手(shou)勢崩壞，也相比現有(you)方(fang)法取得(de)了顯著(zhu)的改(gai)善(shan)。

此外(wai)，對動漫、3D卡(ka)通等(deng)非真人圖片(pian)輸入(ru)的(de)支持效果也較(jiao)為出(chu)色，生成(cheng)的(de)視頻能保(bao)持特(te)定風(feng)格和原(yuan)有的(de)運動模式。

根據技術(shu)主頁展示(shi)的演示(shi)效果(guo)來看，OmniHuman的生成(cheng)效果(guo)已經(jing)具(ju)有較高的自(zi)然度(du)。為防(fang)止該(gai)項技術(shu)被不當利用，字節跳動技術(shu)團隊(dui)在主頁中特別標注稱，OmniHuman將不會對外(wai)提供(gong)下載(zai)。

即夢AI相關(guan)負責人透露，該模型目前(qian)已具備(bei)較好的(de)表現，但在生成影視真實(shi)級別的(de)視頻上仍存在一定的(de)提升(sheng)空(kong)間(jian)。

由其支持的多(duo)模態視頻生成(cheng)功(gong)能會在(zai)即夢上以(yi)小范圍(wei)內(nei)測的形(xing)式進行調優調整，并逐(zhu)步(bu)開放。

該負責人同時表示(shi)，即夢(meng)還(huan)會對這一(yi)功能設置嚴格的(de)(de)安全審核機(ji)制，并且對輸出(chu)的(de)(de)視頻標注水印以作(zuo)(zuo)提醒，從而確(que)保AI發揮正面、積極(ji)的(de)(de)作(zuo)(zuo)用，助力(li)視頻創作(zuo)(zuo)者(zhe)更好地(di)實(shi)現想象力(li)的(de)(de)表達。

稿源：快科技

上一篇：沒有了

下一篇：騰訊云上線DeepSeek全系API接口并打通聯網搜索

Archive-少妇做爰o1集-九牛电影天堂-午夜DJ在线观看-中文字幕人妻熟女av

OmniHuman數字人模型即將上線：一張圖+一段音頻即可生成視頻