按照回歸線的形狀分類時,如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,則這種回歸分析稱為一元線性回歸分析;如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是非線性關系,則稱為多元非線. 線性回歸線性回歸是世界上最知名的建模方法之一。在線性回歸中,數(shù)據(jù)使用線性預測函數(shù)來建模,并且未知的模型參數(shù)也是通過數(shù)據(jù)來估計的。這些模型被叫作線性模型。在線性模型中,因變量是連續(xù)型的,自變量可以是連續(xù)型或離散型的,回歸線)一元線性回歸
Y 通常叫作響應輸出或因變量,X 叫作輸入、回歸量、解釋變量或自變量。線性回歸最適合用直線(回歸線)去建立因變量 Y 和一個或多個自變量 X 之間的關系,如圖 1 所示??梢杂靡韵鹿絹肀硎?。Y = a+b x X+e其中,a 為截距,b 為回歸線的斜率,e 是誤差項。要找到回歸線,就是要確定回歸系數(shù) a 和 b。假定變量 y 的方差是一個常量,可以用最小二乘法來計算這些系數(shù),使實際數(shù)據(jù)點和估計回歸直線之間的誤差最小,只有把誤差做到最小時得出的參數(shù),才是我們最需要的參數(shù)。這些殘差平方和常常被稱為回歸直線的誤差平方和,用 SSE 來表示,如下。
線性回歸模型的解釋性很強,模型的權值向量十分直觀地表達了樣本中每一個屬性在預測中的重要度。例如,要預測今天是否會下雨,并且已經基于歷史數(shù)據(jù)學習到了模型中的權重向量和截距么則可以綜合考慮各個屬性來判斷今天是否會下雨。
其中,X1 表示風力,X2 表示濕度,X3 表示空氣質量。在訓練模型時,要讓預測值盡量逼近真實值,做到誤差最小,而均方誤差就是表達這種誤差的一種方法,所以求解多元線性回歸模型,就求解使均方誤差最小化時對應的參數(shù)。
線性回歸的理解和解釋都非常直觀,還能通過正則化來避免過擬合。此外,線性回歸模型很容易通過隨機梯度下降法來更新數(shù)據(jù)模型。但是,線性回歸在處理非線性關系時非常糟糕,在識別復雜的模式上也不夠靈活,而添加正確的相互作用項或多項式又極為棘手且耗時。
Spark MLlib 的 SGD 線性回歸算法是由 LinearRegressionWithSGD 類實現(xiàn)的,該類是基于無正規(guī)化的隨機梯度下降算法,使用由(標簽,特征序列)組成的 RDD 來訓練線性回歸模型的。
該實例使用的數(shù)據(jù)存放在 lrws_data.txt 文檔中,提供了 67 個數(shù)據(jù)點,每個數(shù)據(jù)點為 1 行,每行由 1 個標簽值和 8 個特征值組成,每行的數(shù)據(jù)格式如下。標簽值,特征 1 特征 2 特征 3 特征 4 特征 5 特征 6 特征 7 特征 8
醫(yī)生希望通過腫瘤的大小 X1、長度X2、種類 X3 等特征來判斷病人的腫瘤是惡性腫瘤還是良性腫瘤,這時目標變量 y 就是分類變量(0 表示良性腫瘤,1 表示惡性腫瘤)。線性回歸是通過一些 x 與 y 之間的線性關系來進行預測的,但是此時由于 y 是分類變量,它的取值只能是 0、1,或者 0、1、2 等,而不能是負無窮到正無窮,所以引入了一個 sigmoid 函數(shù),即
邏輯回歸特別適合用于分類場景,尤其是因變量是二分類的場景,如垃圾郵件判斷,是否患某種疾病,廣告是否點擊等。邏輯回歸的優(yōu)點是,模型比線性回歸更簡單,好理解,并且實現(xiàn)起來比較方便,特別是大規(guī)模線性分類時。