中文文本分類(lèi)中的特征選擇研究
- 文件介紹:
- 該文件為 pdf 格式(源文件可編輯),下載需要
20 積分
- 中文文本分類(lèi)中的特征選擇研究
目的: 隨著信息技術(shù)不斷前進(jìn)和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及,信息呈近乎爆炸的形式急速膨脹。無(wú)論網(wǎng)絡(luò)上、企業(yè)中或是個(gè)人系統(tǒng)上,都有海量的信息需要處理。文本作為計(jì)算機(jī)系統(tǒng)中信息的最重要表現(xiàn)形式之一,其增長(zhǎng)速度更為驚人。如何在海量文本庫(kù)中搜尋、過(guò)濾和管理這些文本成為一個(gè)亟待解決的問(wèn)題。作為數(shù)據(jù)挖掘技術(shù)的重要手段之一,基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)可以在較大程度上解決文本庫(kù)雜亂無(wú)章的現(xiàn)象,幫助人們將大量的文本自動(dòng)分門(mén)別類(lèi),從而更好地把握文本信息,使信息的價(jià)值最大化。 在采用向量空間模型對(duì)文本進(jìn)行表示的情況下,文本分類(lèi)的最大特點(diǎn)和困難之一是特征空間的高維性和文檔表示向量的稀疏性。中文的詞條總數(shù)有二十多萬(wàn)條,尋求一種有效的特征抽取算法,降低特征空間的維數(shù),提高分類(lèi)的效率和精度,成為文本自動(dòng)分類(lèi)中需要首先面對(duì)的重要問(wèn)題。特征選擇是解決這個(gè)問(wèn)題的有效方法。 本選題的核心目的就在于研究如何進(jìn)行特征項(xiàng)的選取,使得分類(lèi)的效率和效果最好。 思路: 首先需要理解中文文本分類(lèi)技術(shù)以及應(yīng)用的框架,熟悉中文文本分類(lèi)技術(shù)的各個(gè)組成部分,然后搭建一個(gè)中文文本分類(lèi)的輔助平臺(tái)(包括分詞組件、分類(lèi)器、測(cè)試文檔集、訓(xùn)練文檔集,大部分都可以從開(kāi)源軟件或公開(kāi)資料里獲得),在輔助平臺(tái)的基礎(chǔ)上研究特征相的提取并用實(shí)驗(yàn)檢驗(yàn)之。 方法: 通過(guò)閱讀大量的資料或文檔學(xué)習(xí)所要用的知識(shí)和技術(shù),并通過(guò)實(shí)驗(yàn)驗(yàn)證自己的想法和理論。 相關(guān)支持條件: PC、java或C++開(kāi)發(fā)環(huán)境、中文文本分類(lèi)輔助平臺(tái)(自己搭建)、Internet ...
中文文本分類(lèi)中的特征選擇研究_下載(pdf格式) 技術(shù)文檔
主站蜘蛛池模板:
亚洲综合图片区
|
一级成人毛片免费观看
|
亚洲成在人天堂一区二区
|
久久国产经典视频
|
我不卡老子影院午夜伦我不卡四虎
|
奇米影视777中文久久爱
|
国产精品视频999
|
玖玖国产
|
亚洲a在线播放
|
神马影院午夜剧场
|
毛片线看免费观看
|
欧美va亚洲va国产综合
|
玖玖在线
|
国产成人亚洲精品2020
|
国产va
|
91在线你懂的
|
韩国网站爱久久
|
精品免费久久久久久成人影院
|
久久婷婷激情
|
亚洲精品国产第一区第二区国
|
模特视频一二三区
|
国产成人在线小视频
|
9l国产精品久久久久麻豆
|
欧美男人天堂网
|
国产51自产区|
日韩专区中文字幕
|
精品一区二区三区在线观看
|
草久在线播放
|
亚洲综合区
|
99热成人精品免费久久
|
99这里只有精品66视频
|
欧美性生活视频免费
|
午夜国产福利在线
|
久久久这里有精品
|
毛片大片
|
天海翼精品久久中文字幕
|
美女啪啪免费网站
|
奇米影视中文字幕
|
99精品国产第一福利网站
|
久久久久女人精品毛片九一
|
国产手机在线国内精品
|