基于雙向LSTM網絡的流式文檔結構識別

摘要:流式文檔結構識別對于排版格式自動優化和信息提取等具有重要作用。基于規則的結構識別方法泛化能力較差,而基于機器學習的方法未考慮文檔單元之間的長距離依賴關系,識別準確率較低。針對該問題,提出一種基于雙向長短期時間記憶(LSTM)網絡的流式文檔結構識別方法。從文檔單元的格式、內容與語義3個方面篩選關鍵特征,并將文檔結構識別看作序列標注問題,使用雙向LSTM神經網絡構建識別模型,以實現對18種邏輯標簽的識別。實驗結果表明,該方法能夠對文檔結構進行有效識別,其識別效果優于方正飛翔軟件。

關鍵詞:
  • 文檔結構識別  
  • 流式文檔  
  • 特征提取  
  • 序列標注  
  • 長短期時間記憶網絡  
作者:
張真; 李寧; 田英愛
單位:
北京信息科技大學網絡文化與數字傳播北京市重點實驗室; 北京100101; 北京信息科技大學計算機學院; 北京100101
刊名:
計算機工程

注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

期刊名稱:計算機工程

計算機工程雜志緊跟學術前沿,緊貼讀者,國內刊號為:31-1289/TP。堅持指導性與實用性相結合的原則,創辦于1975年,雜志在全國同類期刊中發行數量名列前茅。

主站蜘蛛池模板: 国产免费av片在线观看播放| 国产农村妇女精品一二区| 人人干在线视频| 亚洲国产欧美91| jizz.日本| 老司机天堂影院| 波多野结衣未删减在线| 成人国内精品久久久久一区| 国产午夜福利片| 久久精品视频91| xxxx性bbbb欧美野外| 波多野结衣看片| 国产精品区免费视频| 亚洲欧美日韩中文在线制服| av免费网址在线观看| 窝窝午夜看片成人精品| 性高湖久久久久久久久aaaaa| 啊老师太深了好大| 久久99亚洲网美利坚合众国| 超级乱淫视频播放日韩| 日韩精品无码人成视频手机| 国产精品免费久久久久影院| 久久精品人人做人人爽| 麻豆回家视频区一区二| 日韩精品一区二区三区在线观看| 国产一级精品高清一级毛片| 久久久久久久久久久久久久久| 门卫老董趴在我两腿之间| 日本在线高清视频| 国产亚洲3p无码一区二区| 久久久久久久99精品国产片| 精品乱码久久久久久中文字幕| 性欧美videos喷水| 免费福利在线播放| www一级黄色片| 精品丝袜国产自在线拍亚洲| 女人18毛片a级毛片免费视频| 免费看片免费播放| 三级视频在线播放| 日韩福利片午夜在线观看| 国产真**女人特级毛片|