一般來說,建立統計學習模型,簡單是指利用一個或多個輸入變量(一般也稱為自變量,預測變量)通過擬合適當的關系式來預測輸出變量(也稱因變量,響應變量)的方法。其中f(x)是我們希望探求的關系式,但一般來說是固定但未知。盡管f(x)未知,但是我們的目標就是利用一系列的統計/數據挖掘方法來盡可能求出接近f(x)的形式,這個形式可以是一個簡單的線性回歸模型(y=a+bx),也可能是一個曲線形式(y=a+b(x的平方)),當然也有可能是一個神經網絡模型或者一個決策樹模型。
,我們希望模型盡可能地精確,相反預測模型f的形式可能是一個黑箱模型(即模型的本身我們不能很好的解釋或者并不清楚,我們更加關心這當中的輸入和輸出,并不試圖考察其內部結構),只要能夠提高我們的預測精度我們就認可達到目的了。一般認為,神經網絡模型屬于黑箱模型,如幾年前Google X實驗室開發出一套具有自主學習能力的神經網絡模型,它能夠從一千萬中圖片中找出那些有小貓的照片。在這里,輸入就是這一千萬張圖片,輸出就是對于這些圖片的識別。
2在控制任務中,預測結果固然重要,但是我們也十分關心模型的形式具體是怎么樣,或者借助統計挖掘模型幫助我們生成了怎樣的判別規則。例如在銀行業,我們希望通過客戶的個人信用信息來評價個人的借貸風險,這就要求我們不但能夠回答這個客戶的風險是高是低,還要求我們回答哪些因素對客戶風險高低有直接作用,每個因素的影響程度有多大。
根據數據類型,預測可以分為兩個大的類別。如果是discrete data,稱為classification,這也是目前機器學習中比較重要的組成部分。如果是continuous data,稱為regression。
先說我大學課程里系統學過的回歸。現有的很多selection criteria都可以用在回歸里,比如AIC,BIC等等都是很常用的。另外還有常用的likelihood ratio test,比較full model和nested reduced model。我非常同意@慧航說的,
。(根據我目前所學)一般情況下,人們更傾向于選擇簡單但是在描述數據時又不缺失信息的模型,而這也是LRT的核心思想。另外,當你在R中summary一個model,這個model中每個predictor的p value決定了它是否是significant的,即在高度總結數據的過程中它是否是有用的。假如p value很大的話,我們會考慮不把它放進model里。
而在prediction model里,我們也不再追求簡單的model,不再過于關注這些predictor是否significant,因為此時的目的是預測,而任何一點點的extra information都可能會讓預測結果變得更準確。