基于交叉熵與困惑度的LDA-SVM主題研究

智能計(jì)算機(jī)與應(yīng)用雜志

摘要：目前對(duì)于中文影視劇本的分類主要借助人工經(jīng)驗(yàn),具有成本高、效率低等特點(diǎn).當(dāng)前沒(méi)有針對(duì)中文影視劇本主題自動(dòng)分類的相關(guān)研究,本文將對(duì)主題提取進(jìn)行研究,傳統(tǒng)主題生成模型借助于文檔和段落、段落和語(yǔ)句、語(yǔ)句和詞的相似性,而忽略了文本語(yǔ)句與語(yǔ)句之間的相似性.首先,采用ISOMAP方法降低樣本集的向量空間維度;其次,提出交叉熵結(jié)合困惑度的算法模型,進(jìn)而確定LDA需要提取的最優(yōu)主題數(shù)目;最后,通過(guò)劇本-主題的方式,利用LDA算法挖掘劇本的隱含主題詞,同時(shí)利用SVM對(duì)主題詞做出進(jìn)一步的分類.

關(guān)鍵詞：

中文影視劇本
isomap降維
lda
交叉熵
困惑度
svm

作者：

薛佳奇; 楊凡

單位：

西安建筑科技大學(xué)信息與控制工程學(xué)院; 西安710055; 西安建筑科技大學(xué)理學(xué)院; 西安710055

刊名：

智能計(jì)算機(jī)與應(yīng)用

注：因版權(quán)方要求，不能公開全文，如需全文，請(qǐng)咨詢雜志社

投稿咨詢免費(fèi)咨詢雜志訂閱

期刊名稱：智能計(jì)算機(jī)與應(yīng)用

智能計(jì)算機(jī)與應(yīng)用雜志緊跟學(xué)術(shù)前沿，緊貼讀者，國(guó)內(nèi)刊號(hào)為：23-1573/TN。堅(jiān)持指導(dǎo)性與實(shí)用性相結(jié)合的原則，創(chuàng)辦于2011年，雜志在全國(guó)同類期刊中發(fā)行數(shù)量名列前茅。

雜志信息雜志咨詢

基于交叉熵與困惑度的LDA-SVM主題研究

服務(wù)介紹

期刊咨詢

訂閱雜志

期刊推薦