SenseTime的AI生成逼真的Deepfake視頻

2020-01-23 15:03:11    來(lái)源:    作者:

Deepfake(一種將人帶入現有圖像,音頻記錄或視頻中,并用其他人的頭像代替它們的媒體)變得越來(lái)越具有說(shuō)服力。在2019年末,總部位于首爾的Hyperconnect的研究人員開(kāi)發(fā)了一種工具(MarioNETte),該工具可以?xún)H使用網(wǎng)絡(luò )攝像頭和靜態(tài)圖像來(lái)操縱歷史人物,政客或CEO的面部特征。最近,來(lái)自香港科技巨頭SenseTIme,南洋理工大學(xué)和中國科學(xué)院自動(dòng)化研究所的一個(gè)團隊提出了一個(gè)建議。一種通過(guò)獲取音頻序列以合成逼真的視頻來(lái)編輯目標肖像素材的方法。與MarioNETte相反,SenseTime的技術(shù)是動(dòng)態(tài)的,這意味著(zhù)它可以更好地處理以前從未遇到過(guò)的媒體。盡管考慮到涉及深造的最新進(jìn)展令人擔憂(yōu),但結果令人印象深刻。

SenseTime的AI生成逼真的Deepfake視頻

該研究的共同作者描述了該工作,指出“多對多”音頻到視頻翻譯的任務(wù)(即,不具有源視頻和目標視頻的單一標識的翻譯)是一項艱巨的任務(wù)。通常,只有很少數量的視頻可用于訓練AI系統,并且任何方法都必須應對受試者之間較大的音頻視頻變化以及對場(chǎng)景幾何,材質(zhì),照明和動(dòng)態(tài)的知識缺乏。

為了克服這些挑戰,團隊的方法使用表情參數空間或與訓練開(kāi)始之前設置的面部特征相關(guān)的值作為音頻到視頻映射的目標空間。他們說(shuō),這有助于系統比全像素更有效地學(xué)習映射,因為表達式在語(yǔ)義上與音頻源更相關(guān),并且可以通過(guò)機器學(xué)習算法生成參數來(lái)進(jìn)行操作。

在研究人員的框架中,生成的表情參數(與目標對象的幾何和姿勢參數結合)為三維面部網(wǎng)格的重建提供了相同的身份和頭部姿勢,但嘴唇運動(dòng)與源音頻音素相匹配(聲音上在感知上截然不同的單位)。一個(gè)專(zhuān)門(mén)的組件使音頻到表達的翻譯與源音頻的身份無(wú)關(guān),從而使翻譯對于不同的人和源音頻的聲音變化具有魯棒性。然后系統從人的嘴巴區域提取特征(地標)以確保精確地映射每個(gè)動(dòng)作,首先將其表示為熱圖,然后將熱圖與源視頻中的幀合并,將熱圖和幀作為輸入以完成嘴巴區域。

SenseTime的AI生成逼真的Deepfake視頻

研究人員說(shuō),在一項要求100名志愿者評估168個(gè)視頻剪輯的真實(shí)性的研究中,其中一半是由系統合成的,合成視頻的55%的時(shí)間被標記為“真實(shí)”,而90%的時(shí)間標記為“真實(shí)”?;臼聦?shí)。他們將此歸因于其系統捕獲牙齒和面部紋理細節的出色能力,以及嘴角和鼻唇溝等特征(嘴兩側的壓痕線(xiàn)從鼻子邊緣延伸到嘴的外角)。 。

研究人員承認,他們的系統可能出于“各種惡意目的”而被濫用或濫用,例如媒體操縱或“散布惡意宣傳”。作為補救措施,他們建議采取“保護措施”以及頒布和執行授權編輯視頻的立法。被這樣標記。他們寫(xiě)道:“在開(kāi)發(fā)創(chuàng )意和創(chuàng )新技術(shù)的最前沿,我們努力開(kāi)發(fā)方法來(lái)檢測編輯的視頻,作為對策。” “我們還鼓勵公眾充當哨兵向[當局]報告任何看似可疑的視頻。共同努力,我們將能夠在不損害公眾個(gè)人利益的情況下推廣尖端和創(chuàng )新技術(shù)。”

不幸的是,這些提議似乎不太可能阻止像上面描述的那樣由AI產(chǎn)生的深層造假??偛课挥诎⒛匪固氐さ木W(wǎng)絡(luò )安全創(chuàng )業(yè)公司Deeptrace在6月和7月的最新統計中發(fā)現了14698個(gè)互聯(lián)網(wǎng)上的Deepfake視頻,高于去年12月的7964個(gè),在短短七個(gè)月內增長(cháng)了84%。令人不安的不僅是因為深造假貨可能會(huì )在選舉中被用來(lái)影響公眾輿論,或者將某人卷入他們未曾犯下的罪行中,而且還因為該技術(shù)已經(jīng)產(chǎn)生了色情材料 并使 數以百萬(wàn)計的公司陷于癱瘓美元。

SenseTime的AI生成逼真的Deepfake視頻

為了對抗深造的傳播,Facebook –以及Amazon Web Services(AWS),微軟,人工智能合作伙伴關(guān)系以及康奈爾科技大學(xué)的學(xué)者;麻省理工學(xué)院 牛津大學(xué) 加州大學(xué)伯克利分校 馬里蘭大學(xué)學(xué)院公園分校; 和紐約州立大學(xué)奧爾巴尼分校—共同領(lǐng)導了9月宣布的Deepfake檢測挑戰賽。該挑戰于12月啟動(dòng),是在與Google內部技術(shù)孵化器Jigsaw合作生產(chǎn)的大型可視化深層假冒發(fā)布之后,該軟件包被并入了基準,可供研究人員免費用于合成視頻檢測系統開(kāi)發(fā)。在今年早些時(shí)候,Google公開(kāi)了一系列語(yǔ)音數據 包含公司的文本語(yǔ)音轉換模型說(shuō)出的短語(yǔ),作為AVspoof 2019競賽的一部分,以開(kāi)發(fā)可以區分真實(shí)語(yǔ)音和計算機生成語(yǔ)音的系統。

伴隨著(zhù)這些努力,Facebook,Twitter和其他在線(xiàn)平臺已承諾實(shí)施有關(guān)處理AI操縱的媒體的新規則。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。