摘要:針對現有的基于深度學習的神經網絡模型通常都是對單一的語料庫進行訓練學習,提出了一種大規模的多語料庫聯合學習的中文分詞方法。語料庫分別為簡體中文數據集(PKU、MSRA、CTB6)和繁體中文數據集(CITYU、AS),每一個數據集輸入語句的句首和句尾分別添加一對標志符。應用BLSTM(雙向長短時記憶模型)和CRF(條件隨機場模型)對數據集進行單獨訓練和多語料庫共同訓練的實驗,結果表明大規模的多語料庫共同學習訓練能取得良好的分詞效果。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社
熱門期刊
期刊名稱:計算機應用研究
計算機應用研究雜志緊跟學術前沿,緊貼讀者,國內刊號為:51-1196/TP。堅持指導性與實用性相結合的原則,創辦于1984年,雜志在全國同類期刊中發行數量名列前茅。