您现在的位置射洪新闻首页 >>科技新闻>>正文

這個算法會從其他視頻中尋找人物講話時的嘴部動作

【居民医保账户取消】

在此之後,這個算法會從其他視頻中尋找人物講話時的嘴部動作,生成新的視頻。

一批來自斯坦福大學、馬克斯普朗克信息學研究所、普林斯頓大學和Adobe Research的研究人員組織了一個團隊,他們創建了一種算法,它能編輯頭部特寫的對話視頻——即視頻中的講話人主要出現肩膀以上的部分。

那麼我們可以想象一下,剪輯師是否能通過文字劇本來重新修改視頻。這個過程簡單地就像平時處理word文檔那樣,添加你想要的內容,刪除多餘的內容,甚至完全重新排列拍攝的影片,讓它看起來就像一個全新的視頻那樣,毫無瑕疵。

在138位參與者的測試里,該團隊的編輯結果中有60%被評為“逼真”。也就是說加工後的視頻和原始視頻非常像,但Fried表示還有很大的提升空間。

為了讓視頻看起來更加自然,該算法還能讓運動參數的變化更加平滑,併進行3D動畫渲染。最後,它會通過一種名為Neural Rendering的機器學習技術提高視頻的仿真度。

一旦演員在表演時講錯了臺詞,剪輯師只需要重新修改一下劇本臺詞,這個應用會自動找到視頻中對應的片段,並搜索該視頻中其他的臺詞,重新組裝這段語音。換句話說,這就是在重寫視頻的臺詞,就像我們修改文檔中拼錯的單詞那樣。該算法需要原始視頻為素材,修改時間約為40分鐘。

在電視和電影的拍攝中,演員在表演中經常會不小心犯下一些小錯誤。對於影片的剪輯師而言,如果不想要花費巨資重新拍攝,那麼就只能接受這些瑕疵。

對於視頻剪輯師和發行商而言,這個研究成果會非常有用。但也有人擔心這種工具會影響網上視頻和圖片的可信性。研究人員也針對這些工具提出了一些使用準則,提示觀看者這些視頻受到過修改。

這種應用通過全新的腳本從各種視頻片段中提取講話時的唇部動作,並採用機器學習將它“移植”到目標視頻中,讓觀眾看起來更自然。換句話說,它就是讓“唇部運動”和文本同步。

“從錶面上看,這些視頻非常完美,它不再需要重新錄製。”Fried說道,他以第一作者的身份發表了一篇相關研究的論文,目前該論文已經上傳至論文預印本網站arXiv上。該項目始於兩年前,當時Fried還只是普林斯頓大學計算機科學家Adam Finkelstein手下的一名研究生。

“不幸的是,這種技術永遠會招來不法分子的註意。儘管如此,它能帶來更多創造性的視頻編輯和內容創作應用,因此也是值得的。”斯坦福大學博士後Ohad Fried說道。