摘要:針對采用機器學習方法識別流式文檔結構時語料庫稀少、語料標注復雜的問題,該文在研究文檔的邏輯結構和編輯語義特征的基礎上,確立流式文檔邏輯結構標注體系,并提出一種三段式的半自動文檔邏輯結構標注方法:第一階段通過機助人工實現文檔元數據的分離式標注,第二階段自動重建邏輯結構,第三階段自動填充特征向量。實驗結果表明,該文提出的文檔邏輯結構標注方法能夠節省人工成本、提高機器學習算法對文檔結構識別的準確率與召回率,F值達到97.5%。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社
熱門期刊
期刊名稱:中文信息學報
中文信息學報緊跟學術前沿,緊貼讀者,國內刊號為:11-2325/N。堅持指導性與實用性相結合的原則,創辦于1986年,雜志在全國同類期刊中發行數量名列前茅。