摘要:傳統的基于詞邊界劃分的中文分詞已經難以滿足實際應用的需要.通過深入分析詞的內部結構,提出了一種基于條件隨機場的詞結構分析方法.根據偽未登錄詞(POOV)組成成分的特點及詞的內部子結構表示,提出了詞的結構特征來提高未登錄詞(OOV)的識別率及詞結構的識別性能.從詞的內部結構表示形式推導出一般化的詞結構標記集,很好地統一了詞邊界標記和詞內部結構標記.它不僅適用于傳統的中文分詞任務中詞邊界的標注,而且也適用于詞結構分析任務中詞的內部結構的標注.該方法能夠同時分析得到詞的邊界和內部結構信息,解決了語料庫之間分詞標準不一致的問題,滿足了應用的不同需求.實驗結果表明,該方法在整體性能和各層次結構的識別上都比現有方法有所提高.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社