基于注意力機制的LSTM語音情感主要特征選擇

聲學(xué)技術(shù)雜志

摘要：傳統(tǒng)的語音情感識別方式采用的語音特征具有數(shù)據(jù)量大且無關(guān)特征多的特點,因此選擇出與情感相關(guān)的語音特征具有重要意義。通過提出將注意力機制結(jié)合長短時記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM),根據(jù)注意力權(quán)重進行特征選擇,在兩個數(shù)據(jù)集上進行了實驗。結(jié)果發(fā)現(xiàn):(1)基于注意力機制的LSTM相比于單獨的LSTM模型,識別率提高了5.4%,可見此算法有效提高了模型的識別效果;(2)注意力機制是一種有效的特征選擇方法。采用注意力機制選擇出了具有實際物理意義的聲學(xué)特征子集,此特征集相比于原有公用特征集在降低了維數(shù)的情況下,提高了識別準確率;(3)根據(jù)選擇結(jié)果對聲學(xué)特征進行分析,發(fā)現(xiàn)有聲片段長度特征、無聲片段長度特征、梅爾倒譜系數(shù)(Mel-FrequencyCepstralCoefficient,MFCC)、F0基頻等特征與情感識別具有較大相關(guān)性。

關(guān)鍵詞：