摘要:為從海量微博中高效地獲取不同話題下的關鍵信息,微博觀點摘要成為自然語言處理領域近期研究的熱點之一。基線方法基于TF.IDF算法抽取微博句中的關鍵詞,并據此計算微博的重要性分數,直接篩選出觀點摘要;樸素改進方法在基線方法的基礎上,增加了情感分類步驟,并利用微博句之間的語義距離,將摘要句候選集中語義重復、重要度較小的句子去除,生成觀點摘要;基于語義圖優化算法的方法在樸素改進方法的基礎上,利用微博句的重要性分數及微博句之間的語義距離構建語義圖結構,并通過圖優化算法篩選出觀點摘要。樸素改進方法在COAE2016評測任務一測試數據集上,10個話題的平均ROUGE-1值達到26.39%,平均ROUGE-2值達到0.68%,平均ROUGE-SU4值達到5.69%,且評測官方公布結果顯示,該方法在9項評價指標中獲得6項最佳性能?;谡Z義圖優化算法的方法在評測樣例數據集上進行了實驗,結果顯示,該方法比樸素改進方法在ROUGE-1,ROUGE-2,ROUGE—SU4值上分別提升了0.63%,1.51%,2.69%。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社