視訊會議似乎已成現代人必備工具,但這工具目前為止也似乎只為能說話的人準備,對於那些靠手語溝通的人怎麼辦?Google的一項新研究,打算要改變這種無聲語言無法觸發視訊演算法的盲點。
Google用一種即時手語偵測引擎,可以判斷某人何時正在打手語,而不是肢體隨便揮動,以及何時完成手語動作。當然,這對人類來說可能是件理所當然的事,但對過去一直以來都只是在推動畫面畫素提升的視訊系統,卻是一件很困難的事。
Google研究人員在ECCV上發表一篇新論文,指出他們正在嘗試使用的手語系統,會首先透過稱為PoseNet的模型來運作視頻,估計出每幀畫面中的身體和四肢位置。這種簡化的視覺訊息(本質上是一種簡單人形),會被發送到使用德國手語訓練出的人形姿勢數據的一個模型中,然後將即時圖像來與此模型中的手勢進行比對。