科技|微軟AI用一張照片便可生成深度偽造有聲視頻

[星島綜合報道] 微軟亞洲研究院(Microsoft Research Asia)透露，他們開發了一種人工智能模型，能夠僅用一張靜態圖片和一段音軌，就生成逼真的深度偽造視頻。從現在起，我們如何能夠信任我們在線上看到和聽到的內容呢？

人工智能系統在過去幾年中在關鍵標準上已經超越了我們，並且已經讓許多人非常擔心被過早地淘汰並被算法取代。

一些智能小工具現在已被轉變成強大的日常助手和重要的生產力工具。還有一些模型能夠為無聲視頻剪輯生成逼真的聲效，甚至能夠根據文字提示創建驚人的影片。微軟的VASA-1框架似乎是另一個巨大的飛躍。

在對來自VoxCeleb2數據集的大約6000個真實說話臉部的影片進行模型訓練之後，這項技術能夠生成逼真的視頻，在這些視頻中，新動畫的主題不僅能夠準確地對著提供的語音音軌進行口型同步，還能展示多變的面部表情和自然的頭部動作——所有這些都來自一張靜態的頭部照片。

這與幾個月前出現的阿里巴巴智能計算研究院的Audio2Video擴散模型非常相似，但更加逼真和精確。據報道，VASA-1能夠以512x512像素、每秒40幀的速度生成同步視頻，「幾乎沒有啟動延遲」。

雖然所有用於項目演示的參考照片都是由StyleGAN2或DALL-E生成的AI生成的，但有一個突出的真實世界例子用來展示這個框架的實力，它超越了其訓練集——一個說唱的蒙娜麗莎！

項目頁面有許多從靜態圖像生成的談話和唱歌視頻的例子，並與音軌匹配，但這個工具還有可選控制，以設置「面部動態和頭部姿勢」，如情緒、表情、與虛擬視頻攝像機的距離和凝視方向。非常強大。

「人工智能生成的說話臉孔的出現為我們提供了一扇窗戶，展望未來技術將增強人與人、人與人工智能互動的豐富性，」一篇詳細介紹這項成就的論文的引言這樣寫道，「這項技術承諾豐富數碼通信，增加溝通障礙者的可及性，通過互動人工智能輔導改變教育方法，並在醫療保健中提供治療支持和社交互動。」

但研究人員也承認濫用的潛力。雖然在消化我們每天的在線新聞時，從事實中辨別出完全的捏造已經感覺像是一項不可能的任務，但想像一下，如果有一個工具可以讓你隨意讓幾乎任何人出現說你想讓他們說的話。

這可能會演變成無害的惡作劇，比如用一個來自最喜歡的荷李活演員或流行歌星的FaceTime惡作劇親友，通過發布在線供認將一個無辜的人牽扯到嚴重的犯罪中，通過扮演一個陷入困境的親愛孫兒的角色來詐騙某人的錢，讓關鍵政治家支持有爭議的議程等等。這些都是十分逼真的。

然而，VASA-1模型生成的內容「包含可識別的人工痕跡」，研究人員不打算公開這個平台，「直到我們確定這項技術將被負責任地使用，並符合適當的法規。」

圖片：Microsoft Research Asia

T10

>>>訂閱CCUE YouTube 頻道，查看更多吃喝玩樂、生活資訊影片。

追蹤CCUE社交媒體，獲得更多吃喝玩樂生活資訊：
Instagram：https://www.instagram.com/ccue.ca/
Facebook：https://www.facebook.com/ccue.ca