摘要:流式文檔結構識別對于排版格式自動優化和信息提取等具有重要作用。基于規則的結構識別方法泛化能力較差,而基于機器學習的方法未考慮文檔單元之間的長距離依賴關系,識別準確率較低。針對該問題,提出一種基于雙向長短期時間記憶(LSTM)網絡的流式文檔結構識別方法。從文檔單元的格式、內容與語義3個方面篩選關鍵特征,并將文檔結構識別看作序列標注問題,使用雙向LSTM神經網絡構建識別模型,以實現對18種邏輯標簽的識別。實驗結果表明,該方法能夠對文檔結構進行有效識別,其識別效果優于方正飛翔軟件。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社