摘要:對不平衡數(shù)據(jù)進(jìn)行聚類分析時,K-means聚類方法可能會錯誤地將分布在較小區(qū)域類別中的樣本劃分到大區(qū)域類別中;譜聚類算法,雖然可以有效優(yōu)化數(shù)據(jù)結(jié)構(gòu),并很好地識別不同形狀的樣本,但卻難以處理大規(guī)模數(shù)據(jù).針對這些問題,提出一種改進(jìn)地標(biāo)點(diǎn)采樣的不平衡數(shù)據(jù)聚類算法.該算法首先對不平衡數(shù)據(jù)進(jìn)行預(yù)聚類以獲得初始類標(biāo)簽,然后基于數(shù)據(jù)密度對數(shù)據(jù)進(jìn)行采樣.在此基礎(chǔ)上,通過對采樣數(shù)據(jù)執(zhí)行K-means聚類,并將聚類中心作為地標(biāo)點(diǎn),對數(shù)據(jù)進(jìn)行譜聚類分析.實驗結(jié)果顯示,該方法在處理不平衡數(shù)據(jù)時,不僅能夠有效提高樣本的聚類準(zhǔn)確率,而且能夠保證聚類結(jié)果的穩(wěn)定性和精度.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社