摘要:研究針對中醫臨床癥狀詞描述的差異與分歧,以Word2vec和FastText為工具,基于現有中醫藥語料庫,進行中醫癥狀相似度研究,發現了一些較為晦澀、生僻的癥狀同義詞及近義詞,擴充了中醫癥狀詞的詞表,并通過對Pearson、Spearman系數,以及召回率的比較,認為FastText在這一任務上有更好的表現。但是由于中文分詞,特別是中醫古籍分詞的先天劣勢,以及現有語料不夠豐富,導致召回率和準確率還有很大的提升空間,未來值得進一步研究。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社