摘要:【目的】比較不同機(jī)器學(xué)習(xí)算法在智能分診任務(wù)中的準(zhǔn)確率,針對(duì)性地分析在線問(wèn)診平臺(tái)的類目設(shè)置問(wèn)題,嘗試從數(shù)據(jù)中提取新特征提升分類器效果。【方法】基于“春雨醫(yī)生”13個(gè)科室33 073條實(shí)際問(wèn)診數(shù)據(jù),比較兩種文本向量化方式在支持向量機(jī)、多項(xiàng)式貝葉斯、Logistic回歸、隨機(jī)森林、k近鄰以及集成分類模型這6種分類器上實(shí)現(xiàn)智能分診的準(zhǔn)確率;通過(guò)高頻詞分析及詞語(yǔ)共現(xiàn)對(duì)不同科室的錯(cuò)分?jǐn)?shù)據(jù)進(jìn)一步分析。【結(jié)果】文本向量化方法為TF-IDF、分類算法為支持向量機(jī)的分類器在智能分診中的總體效果最優(yōu),增加年齡和性別特征后分類準(zhǔn)確率可達(dá)76.3%。該分類器對(duì)外科數(shù)據(jù)分診準(zhǔn)確率僅為40.9%,原因在于問(wèn)診平臺(tái)類目設(shè)置的混淆。【局限】假設(shè)現(xiàn)有數(shù)據(jù)中患者選擇的科室是正確的。【結(jié)論】機(jī)器學(xué)習(xí)可用于在線問(wèn)診平臺(tái)的智能分診任務(wù),根據(jù)醫(yī)療數(shù)據(jù)特點(diǎn)增加輸入特征是分類器提高準(zhǔn)確率的一個(gè)方向。部分疾病及癥狀的跨科室性影響了分類器的效果,在線問(wèn)診平臺(tái)可通過(guò)推薦多個(gè)科室的方式來(lái)提升患者問(wèn)診體驗(yàn)。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社