摘要:單篇文本的關鍵詞提取可應用于網頁檢索、知識理解與文本分類等眾多領域。該文提出一種融合圖結構與節點關聯的關鍵詞提取方法,能夠在脫離外部語料庫的情況下發現單篇文本的關鍵詞。首先,挖掘文本的頻繁封閉項集并生成強關聯規則集合;其次,取出強關聯規則集合中的規則頭與規則體作為節點,節點之間有邊當且僅當彼此之間存在強關聯規則時,邊權重定義為關聯規則的關聯度,將強關聯規則集合建模成關聯圖;再次,綜合考慮節點的圖結構屬性、語義信息和彼此的關聯性,設計一種新的隨機游走算法計算節點的重要性分數;最后,為了避免抽取的詞項之間有語義包含關系,對節點進行語義聚類并選取每個類的類中心作為關鍵詞提取結果。通過設計關聯圖模型參數的選取、關鍵詞的提取規模、不同算法對比3個實驗,在具有代表性的中英文數據上證明了該方法能夠有效提升關鍵詞提取的效果。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社