
一元線性回歸模型與函數(shù)模型的區(qū)別
Y稱為因變量或響應(yīng)變量
x稱為自變量或解釋變量
e是Y與bx+a之間的隨機(jī)誤差.
參數(shù)a和b刻畫(huà)了變量Y與變量x的線性關(guān)系,因此通過(guò)樣本數(shù)據(jù)估計(jì)這兩個(gè)參數(shù),相當(dāng)于尋找一條適當(dāng)?shù)闹本€,使表示成對(duì)樣本數(shù)據(jù)的這些散點(diǎn)在整體上與這條直線最接近.
與函數(shù)模型不同,回歸模型的參數(shù)一般是無(wú)法精確求出的,只能通過(guò)成對(duì)樣本數(shù)據(jù)估計(jì)這兩個(gè)參數(shù).
問(wèn)題2 如何用數(shù)學(xué)的方法刻畫(huà)“從整體上看,各散點(diǎn)與直線最接近”?
采用測(cè)量的方法,先畫(huà)出一條直線,測(cè)量出各點(diǎn)與它的距離,然后移動(dòng)直線,到達(dá)一個(gè)使距離的和最小的位置. 然后測(cè)量出此時(shí)的斜率和截距,就可得到一 條直線,如圖(1)所示.
在圖中選擇這樣的兩點(diǎn)畫(huà)直線,使得直線兩側(cè)的點(diǎn)的個(gè)數(shù)基本相同,把這條直線作為所求直線,如圖(2)所示.
在散點(diǎn)圖中多取幾對(duì)點(diǎn),確定出幾條直線的方程,再分別求出這些直線的斜率、截距的平均數(shù),將這兩個(gè)平均數(shù)作為所求直線的斜率和截距,如圖(3)所示.
同學(xué)們不妨去實(shí)踐一下,看看這些方法是不是真的可行.
上面這些方法雖然有一定的道理,但比較難操作,我們需要另辟蹊徑.
先進(jìn)一步明確我們面臨的任務(wù): 從成對(duì)樣本數(shù)據(jù)出發(fā),用數(shù)學(xué)的方法刻畫(huà)“從整體上看,各散點(diǎn)與直線最接近”.
通常,我們會(huì)想到利用點(diǎn)到直線y=bx+a的“距離”來(lái)刻畫(huà)散點(diǎn)與該直線的接近程度,然后用所有“距離”之和刻畫(huà)所有樣本觀測(cè)數(shù)據(jù)與該直線的接近程度.
設(shè)滿足一元線性回歸模型的兩個(gè)變量的n對(duì)樣本數(shù)據(jù)為(x1, y1), (x2, y2), ???, (xn, yn),
由yi=bxi+a+ei (i=1, 2, ???, n),得
顯然|ei|越小,表示點(diǎn)(xi , yi)與點(diǎn)(xi , bxi+a)的“距離”越小,即樣本數(shù)據(jù)點(diǎn)離直線y=bx+a的豎直距離越小,如圖所示.
特別地,當(dāng)ei = 0時(shí),表示點(diǎn)(xi , yi)在這條直線上.
刻畫(huà)各樣本觀測(cè)數(shù)據(jù)與直線y=bx+a的“整體接近程度”
在上式中, xi,yi (i=1,2,…,n)是已知的成對(duì)樣本數(shù)據(jù),所以Q由a和b所決定,即它是a和b的函數(shù).
所以我們?nèi)∈筈達(dá)到最小的a和b值, 作為截距a和斜率b的估計(jì)值.
問(wèn)題3 如何求a,b的值,使 最???
上式是關(guān)于b的二次函數(shù),因此要使Q取得最小值,當(dāng)且僅當(dāng)b的取值為
人們經(jīng)過(guò)長(zhǎng)期的實(shí)踐與研究,已經(jīng)找到了計(jì)算回歸方程的一般公式 ,其中:
問(wèn)題3 如何求a,b的值,使 最?。?br/> 該公式的推導(dǎo)較復(fù)雜,故不作推導(dǎo),但它的原理較為簡(jiǎn)單:即各點(diǎn)到該直線的距離的平方和最小。
我們將 稱為Y關(guān)于x的經(jīng)驗(yàn)回歸方程,也稱經(jīng)驗(yàn)回歸函數(shù)或經(jīng)驗(yàn)回歸公式,其圖形稱為經(jīng)驗(yàn)回歸直線. 這種求經(jīng)驗(yàn)回歸方程的方法叫做最小二乘法,利用該公式求得的 叫做b, a的最小二乘估計(jì). 這里的“二乘”是平方的意思.
得到兒子身高Y關(guān)于父親身高x的經(jīng)驗(yàn)回歸方程為
相應(yīng)的經(jīng)驗(yàn)回歸直線如圖所示.
由經(jīng)驗(yàn)回歸方程可以預(yù)測(cè)兒子的身高。
兒子的身高不一定會(huì)是177cm,這是因?yàn)檫€有其他影響兒子身高的因素,回歸模型中的隨機(jī)誤差清楚地表達(dá)了這種影響,父親的身高不能完全決定兒子的身高,不過(guò),我們可以作出推測(cè),當(dāng)父親的身高為176cm時(shí),兒子身高一般在177cm左右.
如果把父親身高為176cm的所有兒子身高作為一個(gè)子總體,那么177cm是這個(gè)子總體均值的估計(jì)值.
英國(guó)著名統(tǒng)計(jì)學(xué)家高爾頓把這種后代的身高向中間值靠近的趨勢(shì)稱為“回歸現(xiàn)象”.后來(lái),人們把由一個(gè)變量的變化去推測(cè)另一個(gè)變量的變化的方法稱為回歸分析.
追問(wèn)3 根據(jù)模型,父親身高為多少時(shí),長(zhǎng)大成人的兒子的平均身高與父親身高一樣?你怎么看這個(gè)判斷?
(1)請(qǐng)畫(huà)出上表數(shù)據(jù)的散點(diǎn)圖;
解: (1)由題設(shè)所給數(shù)據(jù)可 得散點(diǎn)圖,如圖.
(1)作出散點(diǎn)圖,從直觀上分析數(shù)據(jù)間是否存在線性相關(guān)關(guān)系;
(4)寫(xiě)出經(jīng)驗(yàn)回歸方程并對(duì)實(shí)際問(wèn)題作出估計(jì).
求經(jīng)驗(yàn)回歸方程的基本步驟
對(duì)于響應(yīng)變量Y,通過(guò)觀測(cè)得到的數(shù)據(jù)稱為觀測(cè)值,通過(guò)經(jīng)驗(yàn)回歸方程得到的)稱為預(yù)測(cè)值,觀測(cè)值減去預(yù)測(cè)值稱為殘差. 殘差是隨機(jī)誤差的估計(jì)結(jié)果,通過(guò)對(duì)殘差的分析可以判斷模型刻畫(huà)數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面工作稱為殘差分析.
類似地,我們還可以得到其他的殘差,如下表所示.
為了使數(shù)據(jù)更加直觀,用父親身高作為橫坐標(biāo),殘差作為縱坐標(biāo),可以畫(huà)出殘差圖,如圖下所示.
殘差圖:作圖時(shí)縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本編號(hào),或身高數(shù)據(jù),或體重估計(jì)值等,這樣作出的圖形稱為殘差圖.
觀察殘差的散點(diǎn)圖可以發(fā)現(xiàn),殘差比較均勻地分布在橫軸的兩邊. 說(shuō)明殘差比較符合一元線性回歸模型的假定,是均值為0、方差為σ2的隨機(jī)變量的觀測(cè)值.
通過(guò)觀察殘差圖可以直觀判斷樣本數(shù)據(jù)是否滿足一元線性回歸模型的假設(shè), 一般地,建立經(jīng)驗(yàn)回歸方程后,通常需要對(duì)模型刻畫(huà)數(shù)據(jù)的效果進(jìn)行分析.借助殘差分析還可以對(duì)模型進(jìn)行改進(jìn),使我們能根據(jù)改進(jìn)模型作出更符合實(shí)際的預(yù)測(cè)與決策.
好的回歸方程對(duì)應(yīng)的殘差散點(diǎn)圖應(yīng)是均勻地分布在橫軸兩側(cè)的帶狀區(qū)域內(nèi).且?guī)顓^(qū)域越窄,說(shuō)明模型擬合效果越好.
問(wèn)題4 觀察以下四幅殘差圖,你認(rèn)為哪一個(gè)殘差滿足一元線性回歸模型中對(duì)隨機(jī)誤差的假定?
圖(1)顯示殘差與觀測(cè)時(shí)間有線性關(guān)系,應(yīng)將時(shí)間變量納入模型;
圖(2)顯示殘差與觀測(cè)時(shí)間有非線性關(guān)系,應(yīng)在模型中加入時(shí)間的非線性函數(shù)部分;
圖(3)說(shuō)明殘差的方差不是一個(gè)常數(shù),隨觀測(cè)時(shí)間變大而變大
圖(4)的殘差比較均勻地集中在以橫軸為對(duì)稱軸的水平帶狀區(qū)域內(nèi).
可見(jiàn), 只有圖(4)滿足一元線性回歸模型對(duì)隨機(jī)誤差的假設(shè).
一般地, 建立經(jīng)驗(yàn)回歸方程后,通常需要對(duì)模型刻畫(huà)數(shù)據(jù)的效果進(jìn)行分析.借助殘差分析還可以對(duì)模型進(jìn)行改進(jìn),使我們能根據(jù)改進(jìn)模型作出更符合實(shí)際的預(yù)測(cè)與決策.
2.殘差的平方和越小越好;
3.原始數(shù)據(jù)中的可疑數(shù)據(jù)往往是殘差絕對(duì)值過(guò)大的數(shù)據(jù);
4. 對(duì)數(shù)據(jù)刻畫(huà)效果比較好的殘差圖特征:殘差點(diǎn)比較均勻的集中在水平帶狀區(qū)域內(nèi).
2. 關(guān)于殘差圖的描述錯(cuò)誤的是( ) A.殘差圖的橫坐標(biāo)可以是樣本編號(hào) B.殘差圖的橫坐標(biāo)也可以是解釋變量或預(yù)報(bào)變量 C.殘差點(diǎn)分布的帶狀區(qū)域的寬度越窄相關(guān)指數(shù)越小 D.殘差點(diǎn)分布的帶狀區(qū)域的寬度越窄殘差平方和越小
殘差是隨機(jī)誤差的估計(jì)值,通過(guò)對(duì)殘差的分析可判斷回歸模型刻畫(huà)數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面的工作稱為殘差分析.
這是一份人教A版 (2019)選擇性必修 第三冊(cè)8.2 一元線性回歸模型及其應(yīng)用教學(xué)ppt課件,共24頁(yè)。
這是一份高中數(shù)學(xué)人教A版 (2019)選擇性必修 第三冊(cè)8.2 一元線性回歸模型及其應(yīng)用獲獎(jiǎng)?wù)n件ppt,共36頁(yè)。PPT課件主要包含了殘差平方和,偏差平方和等內(nèi)容,歡迎下載使用。
這是一份人教A版 (2019)選擇性必修 第三冊(cè)8.2 一元線性回歸模型及其應(yīng)用背景圖課件ppt,共18頁(yè)。PPT課件主要包含了問(wèn)題1,問(wèn)題2,問(wèn)題3,課堂小結(jié),殘差分析等內(nèi)容,歡迎下載使用。
微信掃碼,快速注冊(cè)
注冊(cè)成功