特征選擇是特征工程中的重要問題(另一個重要的問題是特征提取),坊間常說:數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。
由此可見,特征工程尤其是特征選擇在機器學習中占有相當重要的地位。通常而言,特征選擇是指選擇獲得相應(yīng)模型和算法最好性能的特征集,工程上常用的方法有以下:1. 計算每一個特征與響應(yīng)變量的相關(guān)性:工程上常用的手段有計算皮爾遜系數(shù)和互信息系數(shù),皮爾遜系數(shù)只能衡量線性相關(guān)性而互信息系數(shù)能夠很好地度量各種相關(guān)性,但是計算相對復雜一些,好在很多toolkit里邊都包含了這個工具(如sklearn的MINE),得到相關(guān)性之后就可以排序選擇特征了;2. 構(gòu)建單個特征的模型,通過模型的準確性為特征排序,借此來選擇特征,另外,記得JMLR'03上有一篇論文介紹了一種基于決策樹的特征選擇方法,本質(zhì)上是等價的。
當選擇到了目標特征之后,再用來訓練最終的模型;3. 通過L1正則項來選擇特征:L1正則方法具有稀疏解的特性,因此天然具備特征選擇的特性,但是要注意,L1沒有選到的特征不代表不重要,原因是兩個具有高相關(guān)性的特征可能只保留了一個,如果要確定哪個特征重要應(yīng)再通過L2正則方法交叉檢驗;4. 訓練能夠?qū)μ卣鞔蚍值念A(yù)選模型:RandomForest和Logistic Regression等都能對模型的特征打分,通過打分獲得相關(guān)性后再訓練最終模型;5. 通過特征組合后再來選擇特征:如對用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征,這種做法在推薦系統(tǒng)和廣告系統(tǒng)中比較常見,這也是所謂億級甚至十億級特征的主要來源,原因是用戶數(shù)據(jù)比較稀疏,組合特征能夠同時兼顧全局模型和個性化模型,這個問題有機會可以展開講。6. 通過深度學習來進行特征選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領(lǐng)域,原因是深度學習具有自動學習特征的能力,這也是深度學習又叫unsupervised feature learning的原因。
從深度學習模型中選擇某一神經(jīng)層的特征后就可以用來進行最終目標模型的訓練了。整體上來說,特征選擇是一個既有學術(shù)價值又有工程價值的問題,目前在研究領(lǐng)域也比較熱,值得所有做機器學習的朋友重視。
說明方法 常見的說明方法 常見的說明方法有舉事例、分類別、列數(shù)據(jù)、作比較、畫圖表、下定義、作詮釋、打比方、摹狀貌、引資料等10種。
寫說明文要根據(jù)說明對象的特點及寫作目的,選用最佳方法。下面分別加以說明。
(1)舉例子。舉出實際事例來說明事物,使所要說明的事物具體化,以便讀者理解,這種說明方法叫舉例法。
如: 一般人總以為,年齡稍大,記憶能力就一定要差,其實不然,請看實驗結(jié)果:國際語言學會曾對9至18歲的青年與35歲以上的成年人學習世界語作過一個比較,發(fā)現(xiàn)前者就不如后者的記憶力好。這是因為成年人的知識、經(jīng)驗比較豐富,容易在已有的知識基礎(chǔ)上,建立廣泛的聯(lián)系。
這種聯(lián)系,心理學上稱為“聯(lián)想”。人的記憶就是以聯(lián)想為基礎(chǔ)的,知識經(jīng)驗越豐富,越容易建立聯(lián)想,記憶力就會相應(yīng)提高。
馬克思五十多歲時開始學俄文,六個月后,他就能津津有味地閱讀著名詩人與作家普希金、果戈里和謝德林等人的原文著作了。這是由于語言知識豐富,能夠通曉很多現(xiàn)代和古代的語言的緣故。
這段文章要說明的是:年齡稍大,記憶力不一定就差。為了說明這一點,作者先提供了實驗結(jié)果,又分析了原因。
到此為止,未嘗不可,但不夠具體,也缺乏說服力,于是,又舉出了一個實例:馬克思在五十多歲的時候,只用六個月時間便精通了俄語。這樣一來,內(nèi)容具體了,說服力增強了。
說明文中的舉事例的說明方法和議論文中的例證法,都可以起到使內(nèi)容具體、加強說服力的作用。但二者又有區(qū)別。
議論文中的事例,是用來證明觀點的,說明文的事例,是用來介紹知識的。 運用舉事例的說明方法說明事物或事理,一要注意例子的代表性,二要注意例子的適量性。
(2)分類別。將被說明的對象,按照一定的標準劃分成不同的類別,一類一類地加以說明,這種說明方法,叫分類別。
分類別是將復雜的事物說清楚的重要方法。 運用分類別方法要注意分類的標準,一次分類只能用同一個標準,以免產(chǎn)生重疊交叉的現(xiàn)象。
例如:“圖書館的藏書有中國的、古典的、外國的、科技的、文學的、現(xiàn)代的以及政治經(jīng)濟方面的等。”這里用了不只一個標準,所以表達不清。
正確的說法應(yīng)該是: 圖書館的藏書,按國別分,有中國的、外國的;按時代分,有古典的、現(xiàn)代的;按性質(zhì)分,有科技的、文學的以及政治經(jīng)濟方面的等。 這樣,每次分類只用一個標準,就眉目清楚了。
有的事物的特征、本質(zhì)需要分成幾點或幾個方面來說,也屬于分類別。 注意,運用分類別方法,所列舉的種類不能有遺漏。
(3)列數(shù)據(jù)。為了使所要說明的事物具體化,還可以采用列數(shù)據(jù)的方法,以便讀者理解。
需要注意的是,引用的數(shù)字,一定要準確無誤,不準確的數(shù)字絕對不能用,即使是估計的數(shù)字,也要有可靠的根據(jù),并力求近似。 (4)作比較。
說明某些抽象的或者是人們比較陌生的事物,可以用具體的或者大家已經(jīng)熟悉的事物和它比較,使讀者通過比較得到具體而鮮明的印象。事物的特征也往往在比較中顯現(xiàn)出來。
在作比較的時候,可以是同類相比,也可以是異類相比,可以對事物進行“橫比”,也可以對事物進行“縱比”。 (5)畫圖表。
為了把復雜的事物說清楚,還可以采用圖表法,來彌補單用文字表達的缺欠,對有些事物解說更直接、更具體。 (6)下定義。
用簡明的語言對某一概念的本質(zhì)特征作規(guī)定性的說明叫下定義。下定義能準確揭示事物的本質(zhì),是科技說明文常用的方法。
下定義的時候,可以根據(jù)說明的目的需要,從不同的角度考慮。有的著重說明特性,如關(guān)于“人”的定義;有的著重說明作用,如關(guān)于“肥料”的定義;有的既說明特性又說明作用,如關(guān)于“統(tǒng)籌方法”和“應(yīng)用科學”的定義。
①人是能制造工具并使用工具進行勞動的高級動物。 ②肥料是能供給養(yǎng)分使植物生長的物質(zhì)。
③統(tǒng)籌方法,是一種安排工作進程的數(shù)學方法。 ④工程技術(shù)的科學叫做應(yīng)用科學,它是應(yīng)用自然科學的基礎(chǔ)理論來解決生產(chǎn)實踐中出現(xiàn)的問題的學問。
無論從什么角度考慮,無論采用什么方式,只要是下定義,就必須揭示事物的本質(zhì),只有這樣的定義才是科學的。比如,有人說:“人是兩足直立的動物。”
這個定義就是不科學的,因為它沒能揭示事物的本質(zhì)?!叭耸悄苤圃旃ぞ卟⑹褂霉ぞ哌M行勞動的高級動物?!?/p>
這才是科學的定義,因為它揭示了人的本質(zhì)。 (7)作詮釋。
從一個側(cè)面,就事物的某一個特點做些解釋,這種方法叫詮釋法。 定義法和詮釋法常采用“某某是什么”的語言形式。
形式相同,如何區(qū)分呢?一般來說,“是”字兩邊的話能夠互換,就是定義;如果不能互換,就是詮釋。 例如,“人是能制造工具并使用工具進行勞動的高級動物”這句話,改成“能制造工具并使用工具進行勞動的高級動物是人”,意思不變。
“雪是在云中形成的一種固態(tài)降水物”這句話,如果改為“云中形成的固態(tài)降水物是雪”就不成。由此可以辨別,前一句是定義說明,后一句是詮釋說明。
(8)打比方。利用兩種不同事物之間的相似之處作比較,以突出事物的性狀特點,增強說明的形象性和生動性的說明方法叫做打比方。
說明文中的打比方的說明方法,同修辭格上的比喻是一致的。不同的是,比喻。
在AutoCAD中,選擇對象的方法很多。例如,可以通過單擊對象逐個拾取,也可利用矩形窗口或交叉窗口選擇;可以選擇最近創(chuàng)建的對象、前面的選擇集或圖形中的所有對象,也可以向選擇集中添加對象或從中刪除對象。
過濾選擇
在命令行提示下輸入FILTER命令,將打開“對象選擇過濾器”對話框??梢砸詫ο蟮念愋停ㄈ缰本€、圓及圓弧等)、圖層、顏色、線型或線寬等特性作為條件,過濾選擇符合設(shè)定條件的對象。此時必須考慮圖形中對象的這些特性是否設(shè)置為隨層。
快速選擇
在AutoCAD中,當需要選擇具有某些共同特性的對象時,可利用“快速選擇”對話框,根據(jù)對象的圖層、線型、顏色、圖案填充等特性和類型,創(chuàng)建選擇集。單擊“菜單瀏覽器”按鈕,在彈出的菜單中選擇“工具”|“快速選擇”命令,或在“功能區(qū)”選項板中選擇“常用”選項卡,在“實用程序”面板中單擊“快速選擇”按鈕,都可打開“快速選擇”對話框。
以下為你檢索了一些國內(nèi)頂級刊物的相關(guān)文章。
希望對你有用。[1]姚旭,王曉丹,張玉璽,權(quán)文. 特征選擇方法綜述[J]. 控制與決策,2012,02:161-166+192.[2]單麗莉,劉秉權(quán),孫承杰. 文本分類中特征選擇方法的比較與改進[J]. 哈爾濱工業(yè)大學學報,2011,S1:319-324.[3]武建華,宋擒豹,沈均毅,謝建文. 基于關(guān)聯(lián)規(guī)則的特征選擇算法[J]. 模式識別與人工智能,2009,02:256-262.[4]張麗新,王家廞,趙雁南,楊澤紅. 基于Relief的組合式特征選擇[J]. 復旦學報(自然科學版),2004,05:893-898.[5]趙明淵,唐勇,傅翀,周明天. 基于帶特征染色體遺傳算法的支持向量機特征選擇和參數(shù)優(yōu)化[J]. 控制與決策,2010,08:1133-1138。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:3.532秒