憑聲音描繪出人臉可捕捉講話者視覺特點(diǎn)

2019-06-27 14:23:54來源：新浪網(wǎng)

　　值得一提的是，該系統(tǒng)并不能準(zhǔn)確還原一個(gè)講話者的面容，而是只能根據(jù)學(xué)習(xí)到的基本特征大致模擬人臉圖像。

　　研究人員指出，這是因?yàn)樵撓到y(tǒng)的訓(xùn)練方向就是捕捉與年齡、性別等特征相關(guān)的視覺特點(diǎn)，而這些特點(diǎn)屬于多位講話者的共性。在海量資料的基礎(chǔ)上，該系統(tǒng)只有在從未見過的講話者身上找到足夠多的共性之后，才能大致模擬出一幅人臉圖像。因此這幅圖像無法做到精確還原講話者的面容。

　　此外，雖然該系統(tǒng)的資料庫規(guī)模龐大，但畢竟無法涵蓋全世界所有人，因此該系統(tǒng)模擬出來的圖像仍需要進(jìn)一步調(diào)整和完善。

　　目前該系統(tǒng)面臨的最大挑戰(zhàn)就是如何給這個(gè)資料庫擴(kuò)容，進(jìn)而使其描繪的講話者面容更加接近原型，但這項(xiàng)任務(wù)絕非易事，仍需研究人員進(jìn)一步努力。

首頁上一頁