
1.能通過(guò)具體實(shí)例說(shuō)明一元線性回歸模型修改的依據(jù)與方法.2.通過(guò)對(duì)具體問(wèn)題的進(jìn)一步分析,能將某些非線性回歸問(wèn)題轉(zhuǎn)化為線 性回歸問(wèn)題并加以解決,提高數(shù)學(xué)運(yùn)算能力.3.能通過(guò)實(shí)例說(shuō)明決定系數(shù)R2的意義和作用,提高數(shù)據(jù)分析能力。
通過(guò)前面的學(xué)習(xí)我們已經(jīng)了解到,根據(jù)成對(duì)樣本數(shù)據(jù)的散點(diǎn)圖和樣本相關(guān)系數(shù),可以推斷兩個(gè)變量是否存在相關(guān)關(guān)系、是正相關(guān)還是負(fù)相關(guān),以及線性相關(guān)程度的強(qiáng)弱等. 如果能像建立函數(shù)模型刻畫(huà)兩個(gè)變量之間的確定性關(guān)系那樣,通過(guò)建立適當(dāng)?shù)慕y(tǒng)計(jì)模型刻畫(huà)兩個(gè)隨機(jī)變量的相關(guān)關(guān)系,那么我們就可以利用這個(gè)模型研究?jī)蓚€(gè)變量之間的隨機(jī)關(guān)系,并通過(guò)模型進(jìn)行預(yù)測(cè).
探究1:生活經(jīng)驗(yàn)告訴我們,兒子的身高與父親的身高相關(guān).一般來(lái)說(shuō),父親的身高較高時(shí),兒子的身高通常也較高.為了進(jìn)一步研究?jī)烧咧g的關(guān)系,有人調(diào)查了14名男大學(xué)生的身高及其父親的身高,得到的數(shù)據(jù)如表所示.
可以發(fā)現(xiàn),散點(diǎn)大致分布在一條從左下角到右上角的直線附近,表明兒子身高和父親身高線性相關(guān).利用統(tǒng)計(jì)軟件,求得樣本相關(guān)系數(shù)為r≈0.886,表明兒子身高和父親身高正線性相關(guān),且相關(guān)程度較高。
探究2. 根據(jù)表中的數(shù)據(jù),兒子身高和父親身高這兩個(gè)變量之間的關(guān)系可以用函數(shù)模型刻畫(huà)嗎?
表中的數(shù)據(jù),存在父親身高相同而兒子身高不同的情況.例如,第6個(gè)和第8個(gè)觀測(cè)父親的身高均為172cm,而對(duì)應(yīng)的兒子的身高為176cm和174cm;同樣在第3,4個(gè)觀測(cè)中,兒子的身高都是170cm,而父親的身高分別為173cm,169cm.可見(jiàn)兒子的身高不是父親身高的函數(shù)同樣父親的身高也不是兒子身高的函數(shù),所以不能用函數(shù)模型來(lái)刻畫(huà).
探究3:從成對(duì)樣本數(shù)據(jù)的散點(diǎn)圖和樣本相關(guān)系數(shù)可以發(fā)現(xiàn),散點(diǎn)大致分布在一條直線附近表明兒子身高和父親身高有較強(qiáng)的線性關(guān)系.我們可以這樣理解,由于有其他因素的存在,使兒子身高和父親身高有關(guān)系但不是函數(shù)關(guān)系.那么影響兒子身高的其他因素是什么?
影響兒子身高的因素除父親的身外,還有母親的身高、生活的環(huán)境、飲食習(xí)慣、營(yíng)養(yǎng)水平、體育鍛煉等隨機(jī)的因素,兒子身高是父親身高的函數(shù)的原因是存在這些隨機(jī)的因素.
探究3:由探究3我們知道,正是因?yàn)榇嬖谶@些隨機(jī)的因素,使得兒子的身高呈現(xiàn)出隨機(jī)性各種隨機(jī)因素都是獨(dú)立的,有些因素又無(wú)法量化.你能否考慮到這些隨機(jī)因素的作用,用類似于函數(shù)的表達(dá)式,表示兒子身高與父親身高的關(guān)系嗎?
如果用x表示父親身高,Y表示兒子的身高,用e表示各種其他隨機(jī)因素影響之和,稱e為隨機(jī)誤差,由于兒子身高與父親身高線性相關(guān),所以Y=bx+a.
其中,Y稱為因變量或響應(yīng)變量,x稱為自變量或解釋變量;a和b為模型的未知參數(shù),a稱為截距參數(shù),b稱為斜率參數(shù);e是Y與bx+a之間的隨機(jī)誤差,模型中的Y也是隨機(jī)變量,其值雖然不能由變量x的值確定,但是卻能表示為bx+a與e的和(疊加),前一部分由x所確定,后一部分是隨機(jī)的,如果e=0,那么Y與x之間的關(guān)系就可用一元線性函數(shù)模型來(lái)描述.
問(wèn)題1. 你能結(jié)合父親與兒子身高的實(shí)例,說(shuō)明回歸模型①的意義?
問(wèn)題2.你能結(jié)合具體實(shí)例解釋產(chǎn)生模型①中隨機(jī)誤差項(xiàng)的原因嗎?
產(chǎn)生隨機(jī)誤差e的原因有:(1)除父親身高外,其他可能影響兒子身高的因素,比如母親身高、生活環(huán)境、飲食習(xí)慣和鍛煉時(shí)間等.(2)在測(cè)量?jī)鹤由砀邥r(shí),由于測(cè)量工具、測(cè)量精度所產(chǎn)生的測(cè)量誤差.(3)實(shí)際問(wèn)題中,我們不知道兒子身高和父親身高的相關(guān)關(guān)系是什么,可以利用一元線性回歸模型來(lái)近似這種關(guān)系,這種近似關(guān)系也是產(chǎn)生隨機(jī)誤差e的原因.
與函數(shù)模型不同,回歸模型的參數(shù)一般是無(wú)法精確求出的,只能通過(guò)成對(duì)樣本數(shù)據(jù)估計(jì)這兩個(gè)參數(shù)。參數(shù)a和b刻畫(huà)了變量Y與變量x的線性關(guān)系,因此通過(guò)樣本數(shù)據(jù)估計(jì)這兩個(gè)參數(shù),相當(dāng)于尋找一條適當(dāng)?shù)闹本€,使表示成對(duì)樣本數(shù)據(jù)的這些散點(diǎn)在整體上與這條直線最接近.
問(wèn)題4.我們?cè)鯓訉ふ乙粭l“最好”的直線,使得表示成對(duì)樣本數(shù)據(jù)的這些散點(diǎn)在整體上與這條直線最“接近”?
目標(biāo):從成對(duì)樣本數(shù)據(jù)出發(fā),用數(shù)學(xué)的方法刻畫(huà)“從整體上看,各散點(diǎn)與直線最接近”方法:利用點(diǎn)到直線y=bx+a的“距離”來(lái)刻畫(huà)散點(diǎn)與該直線的接近程度,然后用所有“距離”之和刻畫(huà)所有樣本觀測(cè)數(shù)據(jù)與該直線的接近程度.
我們?cè)O(shè)滿足一元線性回歸模型的兩個(gè)變量的n對(duì)樣本數(shù)據(jù)為(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|=|ei|.顯然|ei|越小,表示點(diǎn)(xi,yi)與點(diǎn)(xi,bxi+a)的“距離”越小,即樣本數(shù)據(jù)點(diǎn)離直線y=bx+a的豎直距離越小。特別地,當(dāng)ei=0時(shí),表示點(diǎn)(xi,yi)在這條直線上.
在實(shí)際應(yīng)用中,因?yàn)榻^對(duì)值使得計(jì)算不方便,所以人們通常用各散點(diǎn)到直線的豎直距離的平方之和
求a,b的值,使Q(a,b)最小
上式是關(guān)于b的二次函數(shù),因此要使Q取得最小值,當(dāng)且僅當(dāng)b的取值為
我們將 稱為Y關(guān)于x的經(jīng)驗(yàn)回歸方程,也稱經(jīng)驗(yàn)回歸函數(shù)或經(jīng)驗(yàn)回歸公式,其圖形稱為經(jīng)驗(yàn)回歸直線,這種求經(jīng)驗(yàn)回歸方程的方法叫最小二乘法.
問(wèn)題5:利用下表的數(shù)據(jù),依據(jù)用最小二乘估計(jì)一元線性回歸模型參數(shù)的公式,求出兒子身高Y關(guān)于父親身高x的經(jīng)驗(yàn)回歸方程。
問(wèn)題6:當(dāng)x=176時(shí), ,如果一位父親身高為176cm,他兒子長(zhǎng)大后身高一定能長(zhǎng)到177cm嗎?為什么?
例如,對(duì)于右表中的第6個(gè)觀測(cè),父親身高為172cm,其兒子身高的觀測(cè)值為y==176(cm),預(yù)測(cè)值為96=0.839×172+28.957=173.265(cm),殘差為176-173.265=2.735(cm).類似地,可以得到其他的殘差,如右表所示.
問(wèn)題7:兒子身高與父親身高的關(guān)系,運(yùn)用殘差分析所得的一元線性回歸模型的有效性嗎?
殘差圖:作圖時(shí)縱坐標(biāo) 為殘差,橫坐標(biāo)可以選為樣本編號(hào),或身高數(shù)據(jù),或體重估計(jì)值等,這樣作出的圖形稱為殘差圖.
觀察表可以看到,殘差有正有負(fù),殘差的絕對(duì)值最大是4.413.觀察殘差的散點(diǎn)圖可以發(fā)現(xiàn),殘差比較均勻地分布在橫軸的兩邊,說(shuō)明殘差比較符合一元線性回歸模型的假定,是均值為0、方差為σ2的隨機(jī)變量的觀測(cè)值.可見(jiàn),通過(guò)觀察殘差圖可以直觀判新模型是否滿足一元線性回歸模型的假設(shè). 一般地,建立經(jīng)驗(yàn)回歸方程后,通常需要對(duì)模型刻畫(huà)數(shù)據(jù)的效果進(jìn)行分析,借助殘差分析還可以對(duì)模型進(jìn)行改進(jìn),使我們能根據(jù)改進(jìn)模型作出更符合實(shí)際的預(yù)測(cè)與決策。
問(wèn)題8:觀察以下四幅殘差圖,你認(rèn)為哪一個(gè)殘差滿足一元線性回歸模型中對(duì)隨機(jī)誤差的假定?
所以,只有圖(4)滿足一元線性回歸模型對(duì)隨機(jī)誤差的假設(shè)。
例1.經(jīng)驗(yàn)表明,對(duì)于同一樹(shù)種,一般樹(shù)的胸徑(樹(shù)的主干在地面以上1.3m處的直徑)越大,樹(shù)就越高.由于測(cè)量樹(shù)高比測(cè)量胸徑困難,因此研究人員希望由胸徑預(yù)測(cè)樹(shù)高.在研究樹(shù)高與胸徑之間的關(guān)系時(shí),某林場(chǎng)收集了某種樹(shù)的一些數(shù)據(jù)如下表所示,試根據(jù)這些數(shù)據(jù)建立樹(shù)高關(guān)于胸徑的經(jīng)驗(yàn)回歸方程.
解: 以胸徑為橫坐標(biāo),樹(shù)高為縱坐標(biāo)作散點(diǎn)圖如下:
散點(diǎn)大致分布在一條從左下角到右上角的直線附近,表明兩個(gè)變量線性相關(guān),并且是正相關(guān),因此可以用一元線性回歸模型刻畫(huà)樹(shù)高與胸徑之間的關(guān)系.用d表示胸徑,h表示樹(shù)高,根據(jù)據(jù)最小二乘法,計(jì)算可得經(jīng)驗(yàn)回歸方程為
根據(jù)經(jīng)驗(yàn)回歸方程,由胸徑的數(shù)據(jù)可以計(jì)算出樹(shù)高的預(yù)測(cè)值(精確到0.1)以及相應(yīng)的殘差,如下表所示.
以胸徑為橫坐標(biāo),殘差為縱坐標(biāo),作殘差圖,得到下圖.
觀察殘差表和殘差圖,可以看到殘差的絕對(duì)值最大是 0.8,所有殘差分布在以橫軸為對(duì)稱軸、寬度小于2的帶狀區(qū)域內(nèi) .可見(jiàn)經(jīng)驗(yàn)回歸方程較好地刻畫(huà)了樹(shù)高與胸徑的關(guān)系,我們可以根據(jù)經(jīng)驗(yàn)回歸方程由胸徑預(yù)測(cè)樹(shù)高.
(1)確定研究對(duì)象,明確哪個(gè)變量是解釋變量,哪個(gè)變量是響應(yīng)變量.(2)畫(huà)出解釋變量與響應(yīng)變量的散點(diǎn)圖,觀察它們之間的關(guān)系 (如是否存在線性關(guān)系等).(3)由經(jīng)驗(yàn)確定回歸方程的類型.(4)按一定規(guī)則(如最小二乘法)估計(jì)經(jīng)驗(yàn)回歸方程中的參數(shù).(5)得出結(jié)果后需進(jìn)行線性回歸分析.①殘差平方和越小,模型的擬合效果越好.②決定系數(shù)R2取值越大,說(shuō)明模型的擬合效果越好.需要注意的是:若題中給出了檢驗(yàn)回歸方程是否理想的條件,則根據(jù)題意進(jìn)行分析檢驗(yàn)即可.
建立線性回歸模型的基本步驟:
例2.人們常將男子短跑100m的高水平運(yùn)動(dòng)員稱為“百米飛人”.下表給出了1968年之前男子短跑100m世界紀(jì)錄產(chǎn)生的年份和世界紀(jì)錄的數(shù)據(jù).試依據(jù)這些成對(duì)數(shù)據(jù),建立男子短跑100m世界紀(jì)錄關(guān)于紀(jì)錄產(chǎn)生年份的經(jīng)驗(yàn)回歸方程。
解:以成對(duì)數(shù)據(jù)中的世界紀(jì)錄產(chǎn)生年份為橫坐標(biāo),世界紀(jì)錄為縱坐標(biāo)作散點(diǎn)圖,得到下圖,散點(diǎn)看上去大致分布在一條直線附近,似乎可用一元線性回歸模型建立經(jīng)驗(yàn)回歸方程.用Y表示男子短跑100m的世界紀(jì)錄,t表示紀(jì)錄產(chǎn)生的年份 ,利用一元線性回歸模型來(lái)刻畫(huà)世界紀(jì)錄和世界紀(jì)錄產(chǎn)生年份之間的關(guān)系 . 根據(jù)最小二乘法,由表中的數(shù)據(jù)得到經(jīng)驗(yàn)回歸方程為:
將經(jīng)驗(yàn)回歸直線疊加到散點(diǎn)圖,得到下圖:
仔細(xì)觀察:從圖中可以看到,經(jīng)驗(yàn)回歸方程較好地刻畫(huà)了散點(diǎn)的變化趨勢(shì),請(qǐng)?jiān)僮屑?xì)觀察圖形,你能看出其中存在的問(wèn)題嗎? 第一個(gè)世界紀(jì)錄所對(duì)應(yīng)的散點(diǎn)遠(yuǎn)離經(jīng)驗(yàn)回歸直線,并且前后兩時(shí)間段中的散點(diǎn)都在經(jīng)驗(yàn)回歸直線的上方,中間時(shí)間段的散點(diǎn)都在經(jīng)驗(yàn)回歸直線的下方. 這說(shuō)明散點(diǎn)并不是隨機(jī)分布在經(jīng)驗(yàn)回歸直線的周圍, 而是圍繞著經(jīng)驗(yàn)回歸直線有一定的變化規(guī)律, 即成對(duì)樣本數(shù)據(jù)呈現(xiàn)出明顯的非線性相關(guān)的特征.
思考:你能對(duì)模型進(jìn)行修改,以使其更好地反映散點(diǎn)的分布特征嗎?
仔細(xì)觀察,可以發(fā)現(xiàn)散點(diǎn)更趨向于落在中間下凸且遞減的某條曲線附近.回顧已有的函數(shù)知識(shí),可以發(fā)現(xiàn)函數(shù)y=-lnx的圖象具有類似的形狀特征 注意到100m短跑的第一個(gè)世界紀(jì)錄產(chǎn)生于1896年, 因此可以認(rèn)為散點(diǎn)是集中在曲線y=f(t)=c1+c2ln(t-1895)的周圍,其中c1、c2為未知參數(shù),且c2
這是一份高中數(shù)學(xué)人教A版 (2019)選擇性必修 第三冊(cè)8.2 一元線性回歸模型及其應(yīng)用優(yōu)秀課件ppt,共36頁(yè)。
這是一份人教A版 (2019)選擇性必修 第三冊(cè)8.2 一元線性回歸模型及其應(yīng)用公開(kāi)課ppt課件,共52頁(yè)。
這是一份高中人教A版 (2019)8.2 一元線性回歸模型及其應(yīng)用優(yōu)質(zhì)ppt課件,文件包含新人教A版數(shù)學(xué)選擇性必修三82一元線性回歸模型及其應(yīng)用課件41524pptx、新人教A版數(shù)學(xué)選擇性必修三82一元線性回歸模型及其應(yīng)用學(xué)案41524docx、新人教A版數(shù)學(xué)選擇性必修三82一元線性回歸模型及其應(yīng)用分層練習(xí)基礎(chǔ)練+能力練41524docx等3份課件配套教學(xué)資源,其中PPT共39頁(yè), 歡迎下載使用。
微信掃碼,快速注冊(cè)
注冊(cè)成功