AI深度學習又有新的應用,Google去年發表的新產品Google Clips主打「紀錄最自然的一刻」,透過機器學習、邊緣運算,讓你回味回憶時看到最自然、有趣的一刻。但Google是怎麼做到讓機器「選擇」什麼是最值得紀錄的瞬間的?

Google最初為相機設下了幾個目標:

  1. Google 想要全部計算在相機端進行。在相機端計算的好處,除了可以延長相機電池壽命和減少計算延遲,還代表除非用戶決定儲存或分享拍攝資料,所有資料都保留在相機端,這也是用戶隱私控制的關鍵。
  2. Google 希望 Clips 拍攝短片,而不是照片。拍攝動態瞬間更能切中用戶需求和忠於回憶,且相較即時抓拍單張完美瞬間的照片,拍攝一段引人注目瞬間的影片更容易。
  3. Google 想讓相機專注於「偷拍」人和寵物,而不是更抽象和有主觀困難的藝術照片。也就是說,Google 並沒有嘗試教 Clips 思考構圖、色彩平衡、光線等拍攝技巧;相反地,Clips 專注於選擇「偷拍」人和動物在做有趣活動的瞬間。

當然,Google需要教會相機去偷拍,才能達到他們的目標。首先,Google打造一個有成千上萬不同場景的影片資料庫,並雇用專業攝影師和影片剪輯師,從影片素材精心挑出最優片段。早期綜合處理影片為Google提供樣本,這些樣本可供演算法模擬。這訓練Clips知道如何操作相機拍出品質好的影片,讓它為接下來篩選影片的階段做好準備。

然而好的影片不一定是有趣的影片。為了讓Clips知道什麼樣的場景是人類覺得有趣的,Google收集了第二個資料庫,他們將一個長影片切割成許多短片段,並兩兩成組比較,而不是讓人類評估員直接對單支影片打分數。Google發現使用成組比較時,人類評估員標準較為統一,直接打分數時就沒那麼穩定了。對任何特定影片,只要給予夠多成組片段,Google 就能在整支影片內計算出連續片段品質評分。Google 從 Clips 的 1 千多支影片,取樣超過5千萬個用於成組比較的影片片段。

在準備好這兩個資料集後,就可以進入神經網路的訓練階段。Google假設現在Clips已經能分辨影片中了解場景內的主角,像是人、狗、樹等,如果假設正確,就能利用辨識照片內容來預測品質分數。Google利用驅動Google影像搜尋和Google相簿的同款機器學習技術,來辨識訓練資料庫說明事物、概念及動作的內容標籤。Google的攝影專家選擇幾百種標籤,他們認為這些標籤與預測一張照片的「有趣」最接近。Google還加上人類評估員表示片段品質得分最契合的那些標籤,讓Clips為發生在它鏡頭前的每件事評分並決定是否拍下來。

最後一個步驟即是從輸入照片的內容,預測品質分數,除了用訓練資料集來確保預測的準確度之外,研究團隊還為已知的有趣場景調整品質分數的權重,像是重複出現的臉部、微笑和寵物、擁抱、親吻和跳舞等,鼓勵Clips拍下這些片段。

在這個複雜的模型運作下,Clips會學習越來越多的片段對用戶是否有趣、重要,會逐漸更貼近用戶的喜好與需求。在一段時間的使用後,使用者紀錄得越多,Clips學得越快,就越能達成個性化的目標。

延伸閱讀:

攝影師協助開發Google Clips開放預購供不應求

旅遊忘記租網卡怎麼辦?Google離線翻譯全面進化!