四海網(wǎng)

憑聲音描繪出人臉 可捕捉講話者視覺特點

2019-06-27 14:23:54來源:新浪網(wǎng)

  值得一提的是,該系統(tǒng)并不能準確還原一個講話者的面容,而是只能根據(jù)學(xué)習(xí)到的基本特征大致模擬人臉圖像。

  研究人員指出,這是因為該系統(tǒng)的訓(xùn)練方向就是捕捉與年齡、性別等特征相關(guān)的視覺特點,而這些特點屬于多位講話者的共性。在海量資料的基礎(chǔ)上,該系統(tǒng)只有在從未見過的講話者身上找到足夠多的共性之后,才能大致模擬出一幅人臉圖像。因此這幅圖像無法做到精確還原講話者的面容。

  此外,雖然該系統(tǒng)的資料庫規(guī)模龐大,但畢竟無法涵蓋全世界所有人,因此該系統(tǒng)模擬出來的圖像仍需要進一步調(diào)整和完善。

  目前該系統(tǒng)面臨的最大挑戰(zhàn)就是如何給這個資料庫擴容,進而使其描繪的講話者面容更加接近原型,但這項任務(wù)絕非易事,仍需研究人員進一步努力。

相關(guān)文章