[星島綜合報道] 幾乎所有使用過降噪耳機的人都知道,在正確的時間聽到正確的聲音十分重要。有人可能想在室內工作時消除汽車喇叭聲,但在繁忙的街道上行走時則不會。然而,人們無法選擇他們的耳機取消哪些聲音。

現在,華盛頓大學研究人員領導的一個團隊開發了深度學習算法,讓用戶可以實時挑選耳機中過濾的聲音。該團隊稱這個系統為「語義聽覺」(semantic hearing)。耳機將捕獲的音頻串流到連接的智能手機,該手機取消所有環境聲音。耳機使用者可以通過語音命令或智能手機應用程式選擇他們想要包括的聲音,從20個類別中選擇,如汽車響號、嬰兒哭聲、講話、吸塵器和鳥鳴。只有選定的聲音才會通過耳機播放。

華盛頓大學的Paul G. Allen電腦科學與工程學院教授、資深作者Shyam Gollakota表示:「了解鳥的聲音是什麼樣子,並從環境中的所有其他聲音中提取出來,需要實時智能,這是今天的降噪耳機尚未實現的。挑戰在於,耳機使用者聽到的聲音需要與他們的視覺感官同步。你不能在某人對你說話後兩秒鐘才聽到他的聲音。這意味著神經演算法必須在不到百分之一秒的時間內處理聲音。」

由於這個時間壓力,語義聽覺系統必須在像是連接的智能手機這樣的設備上處理聲音,而不是在更強大的雲端伺服器上。此外,由於來自不同方向的聲音在不同時間到達人們的耳朵,系統必須保留這些延遲和其他空間線索,以便人們仍然能夠有意義地感知他們環境中的聲音。

在辦公室、街道和公園等環境中經過測試,該系統能夠提取出汽車響號、鳥鳴、警報和其他目標聲音,同時移除所有其他現實世界的噪音。當22名參與者對系統的目標聲音音頻輸出進行評分時,他們表示平均而言,質量較原始錄音有所提高。

在某些情況下,系統難以區分具有許多共同特性的聲音,如聲樂和人類語言。研究人員指出,對模型進行更多現實世界數據的訓練可能會改善這些結果。

圖片:Canva 、University of Washington

T10

>>>訂閱CCUE YouTube 頻道,查看更多吃喝玩樂、生活資訊影片。

追蹤CCUE社交媒體,獲得更多吃喝玩樂生活資訊:
Instagram:https://www.instagram.com/ccue.ca/
Facebook:https://www.facebook.com/ccue.ca