線性回歸

統計中,線性回歸是一個統計模型,它估計標量響應與一個或多個解釋變量(也稱為依賴性和自變量)之間的線性關係。一個解釋變量的情況稱為簡單的線性回歸。對於多個,該過程稱為多個線性回歸。該術語與多元線性回歸不同,其中預測了多個相關的因變量,而不是單個標量變量。如果用誤差測量解釋變量,則需要在變量中的錯誤模型,也稱為測量誤差模型。

在線性回歸中,使用線性預測器函數對關係進行建模,其未知模型參數是從數據估算的。這樣的模型稱為線性模型。最常見的是,考慮到解釋變量(或預測因子)的值,響應的條件均值被認為是這些值的仿射函數。少於有條件的中位數或其他一些分位數。像所有形式的回歸分析一樣,鑑於預測變量值,線性回歸側重於響應的條件概率分佈,而不是所有這些變量的關節概率分佈,這是多變量分析的域。

線性回歸是要嚴格研究的第一類回歸分析,並在實際應用中廣泛使用。這是因為與與其參數無關的模型相比,線性取決於其未知參數的模型更容易擬合,並且由於所得估計量的統計屬性更易於確定。

線性回歸具有許多實際用途。大多數應用程序屬於以下兩個廣泛類別之一:

  • 如果目標是誤差,即預測預測的差異,則可以使用線性回歸將預測模型擬合到觀察到的響應和解釋變量值的數據集。在開發了這樣的模型之後,如果收集了解釋變量的其他值而沒有隨附的響應值,則擬合模型可用於對響應進行預測。
  • 如果目的是解釋可以歸因於解釋變量變化的響應變量的變化,則可以應用線性回歸分析來量化響應與解釋變量之間的關係強度,尤其是確定一些解釋變量可能與響應完全沒有線性關係,或者確定哪些解釋變量的子集可能包含有關響應的冗餘信息。

線性回歸模型通常是使用最小二乘方法擬合的,但也可能以其他方式擬合,例如,通過在其他規範中最小化“缺乏擬合”(如絕對絕對偏差回歸),或者通過最小化受到懲罰的方式。最小二乘成本功能的版本如脊回歸L 2 -norm懲罰)和LassoL 1-納米懲罰)。將均方根誤差(MSE)用作具有許多較大異常值的數據集中的成本,可能會導致一個模型,該模型符合異常值,而不是真實數據,因為MSE分配了更高的重要性。因此,如果數據集具有許多較大的異常值,則應使用與異常值相關的成本函數。相反,最小二乘方法可用於擬合不是線性模型的模型。因此,儘管術語“最小二乘”和“線性模型”密切相關,但它們不是同義詞。

公式

在線性回歸中,假定觀察值(紅色)是因變量( y )和自變量( x )之間的基本關係(藍色)的隨機偏差(綠色)的結果。

給定數據n個統計單元中,線性回歸模型假設因變量y和回歸器x的向量之間的關係是線性的。這種關係是通過干擾項誤差變量ε (一種未觀察到的隨機變量,它在因變量和回歸器之間的線性關係中添加了“噪聲”的未觀察到的隨機變量。因此該模型採用表單

其中t表示轉置,因此x itβ向量x iβ之間內部產物

通常,這些n個方程式堆疊在一起,並用矩陣符號編寫為

在哪裡

符號和術語

  • 是觀察值的向量變量稱為回歸內源變量響應變量目標變量測量變量標準變量因變量。該變量有時也稱為預測變量,但這不應與預測值相混淆,該值表示為 。關於數據集中的哪個變量被建模為因變量的決定,哪些變量被建模為自變量可能是基於一個假定,即,一個變量之一的值是由其他變量引起或直接影響其他變量的。另外,可能有一個操作原因可以用其他變量對一個變量進行建模,在這種情況下,不需要因果關係。
  • 可以看作是行向量的矩陣n柱向量稱為回歸變量外源變量解釋變量協變量輸入變量預測變量自變量(不要與獨立隨機變量的概念相混淆)。矩陣有時被稱為設計矩陣
    • 通常將常數作為回歸器之一。尤其, 為了β的相應元素稱為截距。線性模型的許多統計推斷程序都需要截距,因此即使理論上的考慮表明其值應為零,也通常包括在內。
    • 有時,一個回歸變量可能是另一個回歸器或數據值的非線性函數,例如多項式回歸分段回歸。只要在參數矢量β中線性線性,該模型就保持線性。
    • x IJ可以被視為在觀察因變量之前選擇的隨機變量x j的值x j或固定值。在不同情況下,這兩種解釋都可能是適當的,並且通常會導致相同的估計程序。但是,在這兩種情況下,使用了不同的漸近分析方法。
  • 是一個 -維參數向量,其中是攔截術語(如果在模型中包含一個術語 - 否則p維)。它的元素被稱為效應回歸係數(儘管後一項有時是用於估計效應的)。在簡單的線性回歸中, p = 1,係數稱為回歸斜率。線性回歸的統計估計推斷集中在β上。該參數矢量的元素被解釋為相對於各種獨立變量的因變量的部分衍生物
  • 是價值的向量 。該模型的這一部分稱為誤差項干擾項或有時噪聲(與其他模型提供的“信號”相反)。該變量捕獲了影響因變量y之外的所有其他因素,而不是回歸器x 。誤差項與回歸器之間的關係,例如它們的相關性,是製定線性回歸模型的關鍵考慮,因為它將確定適當的估計方法。

將線性模型擬合到給定數據集通常需要估計回歸係數這樣的錯誤術語最小化。例如,使用平方錯誤的總和很常見作為衡量的為了最小化。

例子

考慮到一個小球被扔在空中,然後我們在各個時刻的時間t i測量上升的高度。物理告訴我們,忽略阻力,可以將關係建模為

其中β1確定球的初始速度, β2標準重力成正比, εI由於測量誤差所致。線性回歸可用於從測量數據估算β1β2的值。該模型在時間變量中是非線性的,但是在參數β1β2中是線性的如果我們採用回歸器x i =( x i 1x i 2 )=( t it i 2 ),該模型採用標準表單

假設

具有標準估計技術的標準線性回歸模型對預測變量,響應變量及其關係做出了許多假設。已經開發了許多擴展,使每個假設都可以放鬆(即減少到較弱的形式),在某些情況下完全消除了這些假設。通常,這些擴展使估計過程更加複雜和耗時,還可能需要更多數據才能產生同樣精確的模型。

立方多項式回歸的示例,這是一種線性回歸。儘管多項式回歸將非線性模型擬合到數據,但作為統計估計問題,它是線性的,因為回歸函數e( y | x )在從數據中估算的未知參數中是線性的。因此,多項式回歸被認為是多個線性回歸的特殊情況。

以下是具有標準估計技術(例如普通最小二乘)的標準線性回歸模型做出的主要假設:

  • 弱外生性。從本質上講,這意味著預測變量x可以視為固定值,而不是隨機變量。例如,這意味著假定預測變量是沒有錯誤的,也就是說,不會被測量誤差污染。儘管此假設在許多情況下都不現實,但將其放置導致了更加困難的錯誤模型
  • 線性。這意味著響應變量的平均值是參數(回歸係數)和預測變量的線性組合。請注意,此假設的限制要比最初看起來要小得多。由於預測變量被視為固定值(請參見上文),因此線性實際上只是對參數的限制。預測變量本身可以任意轉換,實際上可以添加相同基礎預測變量的多個副本,每個副本都會有所不同。例如,在多項式回歸中使用了該技術,該回歸使用線性回歸將響應變量作為預測變量變量的任意多項式函數(至給定程度)。憑藉這種較大的靈活性,諸如多項式回歸之類的模型通常具有“太多的功率”,因為它們傾向於過度擬合數據。結果,通常必須使用某種正則化來防止估計過程中出現的不合理解決方案。常見的例子是脊回歸套索回歸貝葉斯線性回歸也可以使用,從本質上講,它或多或少地不受過度擬合問題的影響。 (實際上,脊回歸套索回歸都可以看作是貝葉斯線性回歸的特殊情況,並在回歸係數上放置了特定類型的先驗分佈
  • 使用MATLAB的100個隨機擬合值在散點圖中可視化異質性
    恆定差異(又稱均勻性)。這意味著錯誤的方差不取決於預測變量的值。因此,對於預測變量給定固定值的響應的可變性是相同的,無論響應的大小有多大。通常不是這種情況,作為一個變量,其平均值通常會比平均值小的變化​​更大。例如,一個預計收入為$ 100,000的人很容易獲得80,000美元或120,000美元的實際收入(IE,標準偏差,約為20,000美元左右),而另一個人的預計收入為10,000美元,則不太可能擁有相同的20,000美元標準偏差,因為這意味著他們的實際收入可能在 -10,000美元至30,000美元之間變化。 (實際上,正如在許多情況下所表明的那樣,通常與正態分佈錯誤失敗的同一情況相同- 應預測,差異或標準偏差應與平均值成比例,而不是恆定。)缺乏同質性的是稱為異質性。為了檢查此假設,可以檢查殘留物與預測值(或每個單獨預測指標的值)的圖,以獲得“扇形效應”(即,隨著一個向左向右移動到繪圖上的一個移動時,垂直擴散會增加或減少垂直擴散) 。也可以檢查絕對或平方殘差與預測值(或每個預測指標)的圖是否有趨勢或曲率。也可以使用正式測試;參見異質性。異方差的存在將導致使用方差的總體“平均”估計值,而不是考慮到真實方差結構的差異。這會導致不太精確(但對於普通最小二乘,而不是偏見)參數估計和偏見的標準誤差,從而導致誤導性測試和間隔估計。模型的平均誤差也將是錯誤的。各種估計技術在內,包括加權最小二乘和使用異質性的標準誤差的使用可以以相當一般的方式處理異質性。當假定方差是平均值的函數時,也可以使用貝葉斯線性回歸技術。在某些情況下,還可以通過將轉換應用於響應變量來解決問題(例如,使用線性回歸模型擬合響應變量的對數,這意味著響應變量本身俱有對數正態分佈,而不是對數正態分佈,而不是。正態分佈)。
為了檢查線性回歸模型中線性,恆定方差和錯誤獨立性的違反,通常會根據預測值(或每個單個預測指標)繪製殘差。在0處的水平中線上顯然是隨機分散的,但不能排除某些類型的違規行為,例如錯誤中的自相關或它們與一個或多個協變量的相關性。
  • 錯誤的獨立性。這假設響應變量的誤差彼此不相關。 (實際的統計獨立性比僅缺乏相關性的情況更強,並且通常不需要,儘管如果知道它可以持有的話,它可以被利用。)某些方法(例如概括性最小二乘等方案)能夠處理相關錯誤,儘管它們通常需要它們除非使用某種正則化來偏向模型假設錯誤,否則要大量數據。貝葉斯線性回歸是處理此問題的一般方法。
  • 預測因子缺乏完美的多重共線性。對於標準最小二乘估計方法,設計矩陣X必須具有完整的列等級P ;否則,預測變量中存在完美的多重共線性,這意味著兩個或多個預測變量之間存在線性關係。這可能是通過意外重複數據中的變量引起的,使用變量的線性轉換以及原始變量(例如,在華氏和攝氏攝氏的相同溫度測量值),或在模型中包含多個變量的線性組合,例如他們的卑鄙。如果可用的數據與要估計的參數數量相比,可用的數據太少(例如,數據點少於回歸係數),也可能發生。幾乎違反了這一假設,即預測因子高但不是完全相關的,可以降低參數估計值的精度(請參見方差膨脹因子)。在完美多重共線性的情況下,參數向量β不可識別- 它沒有獨特的解決方案。在這種情況下,只能識別某些參數(即它們的值只能在完整參數空間r P的某些線性子空間中估算)。請參閱部分最小二乘回歸。已經開發了將線性模型擬合線性模型的方法,其中一些需要其他假設,例如“效應稀疏性” - 效果的很大一部分恰好為零。請注意,用於參數估計的計算更昂貴的迭代算法,例如在廣義線性模型中使用的算法,並不遭受此問題的困擾。

除了這些假設之外,數據的其他幾個統計特性強烈影響不同估計方法的性能:

  • 誤差項和回歸器之間的統計關係在確定估計程序是否具有理想的採樣屬性(例如公正和一致)中起著重要作用。
  • 預測變量x的排列或概率分佈β估計值的精度有重大影響。實驗的採樣設計是統計的高度發展的子字段,可為收集數據提供指導,以實現β的精確估計。

解釋

ANSCombe四重奏中的數據集設計為具有大致相同的線性回歸線(以及幾乎相同的均值,標準偏差和相關性),但在圖形上非常不同。這說明了僅依靠擬合模型來了解變量之間關係的陷阱。

當模型中的所有其他預測變量“固定”時,擬合的線性回歸模型可用於識別單個預測變量變量x j與響應變量y之間的關係。具體而言,當固定另一個協變量時, X J的解釋是X J中單個單元變化的預期變化,即相對於X JY部分導數的期望值。這有時稱為X JY獨特效果。相反,可以使用僅將X Jy相關的相關係數簡單的線性回歸模型來評估X JY邊際效應。這種效應是對於X J總導數

在解釋回歸結果時必須注意,因為某些回歸器可能不允許進行邊際更改(例如虛擬變量或攔截術語),而其他回歸者則不能保持固定(從引言中回想一下:不可能:這是不可能的:這是不可能的要“固定固定”,同時更改t i 2的值)。

即使邊際效應很大,唯一效應也可能幾乎為零。這可能意味著其他一些協變量捕獲了X J中的所有信息,因此一旦該變量在模型中,就沒有X JY變化的貢獻。相反, X J的獨特效果可能很大,而其邊際效應幾乎為零。如果其他協變量解釋了Y的大量變化,但這將發生這種情況,但它們主要解釋了變化的方式,這種變化是與X J所捕獲的互補的。在這種情況下,包括模型中的其他變量降低了與X J無關的Y變異性的一部分,從而加強了與X J的明顯關係。

表達“固定”的含義可能取決於預測變量的值如何出現。如果實驗者根據研究設計直接設置了預測變量的值,則感興趣的比較實際上與實驗者“固定”的預測變量“固定”的單元之間的比較相對應。另外,“固定”的表達方式可以指在數據分析的背景下進行的選擇。在這種情況下,我們通過將注意力限制在給定預測變量的數據子集的子集中“固定固定”。這是可以在觀察性研究中使用的“固定”的唯一解釋。

在研究一個複雜的系統時,“獨特效應”的概念在多個相互關聯的組件會影響響應變量時具有吸引力。在某些情況下,它實際上可以解釋為與預測變量值相關的干預措施的因果效應。但是,有人認為,在許多情況下,當預測變量與彼此相關時,多元回歸分析無法澄清預測變量和響應變量之間的關係,並且在研究設計後未分配。

擴展

已經開發了許多線性回歸的擴展,這使基本模型基礎的某些或全部假設可以放鬆。

簡單和多線性回歸

簡單線性回歸的示例,它具有一個自變量

單個標量預測變量x和單個標量響應變量y的最簡單情況稱為簡單線性回歸。擴展到多和/或矢量值的預測變量(用大寫X表示)稱為多個線性回歸,也稱為多變量線性回歸(不要與多元線性回歸相混淆)。

多線性回歸是簡單線性回歸對一個以上自變量的情況的概括,以及一種普通線性模型的特殊情況,僅限於一個因變量。多個線性回歸的基本模型是

對於每個觀察

在上面的公式中,我們考慮了一個因變量和p自變量的n觀察結果。因此, y i是對因變量的觀察結果x ijj th自變量的觀察j = 1,2,..., p 。值βj表示要估計的參數, εi第三獨立分佈正常誤差。

在更一般的多元線性回歸中,對於m > 1個因變量中的每個變量中的每一個中,都有一個方程式,它們共享相同的解釋變量,因此相互估計:

對於所有觀察結果,索引為i = 1,..., n ,對於所有因變量,索引為j = 1,..., m

幾乎所有現實世界回歸模型都涉及多個預測指標,並且線性回歸的基本描述通常是根據多重回歸模型來表達的。但是,請注意,在這些情況下,響應變量y仍然是標量。另一個術語是多元線性回歸,是指y是向量的情況,即,與一般線性回歸相同。

一般線性模型

一般線性模型考慮了響應變量不是標量的情況(對於每個觀察值),而是向量, y i 。條件線性仍然假定,矩陣B取代了經典線性回歸模型的向量β 。已經開發了普通最小二乘(OL)和廣義最小二乘(GL)的多元類似物。 “常規線性模型”也稱為“多元線性模型”。這些與多變量線性模型(也稱為“多個線性模型”)不同。

異質模型

已經創建了允許異方差的各種模型,即不同響應變量的錯誤可能具有不同的差異。例如,加權最小二乘是一種估計線性回歸模型的方法,當響應變量可能具有不同的誤差差異,可能與相關誤差相關。 (另請參見加權線性最小二乘廣義的最小二乘。)異質性一致的標準誤差是一種改進的方法,可用於與不相關但潛在的異質誤差。

廣義線性模型

廣義線性模型(GLM)是建模有界或離散的響應變量的框架。例如:

  • 當建模大規模變化的正數(例如價格或種群)時,使用偏斜的分佈(例如對數正態分佈Poisson分佈)進行更好的描述(儘管GLM不用於對數正態數據,而是響應響應使用對數函數簡單地轉換變量);
  • 當對分類數據進行建模時,例如選舉中給定候選人的選擇(使用Bernoulli分佈/二元分佈進行二進制選擇更好地描述,或者是多向選擇的分類分佈/多項式分佈)固定數量的選擇無法有意義地排序;
  • 當對序數數據進行建模時,例如從0到5的量表上的評分,可以訂購不同的結果,但是數量本身可能沒有任何絕對含義(例如,4的評分在任何目標中都不是“兩倍”感覺為2的評分,但僅表示它比2或3好,但不如5)。

廣義線性模型允許使用任意鏈接函數G ,將響應變量的平均值與預測變量相關聯: 。鏈接函數通常與響應的分佈有關,特別是它通常具有轉換的作用線性預測變量的範圍和響應變量的範圍。

GLM的一些常見示例是:

單個索引模型在XY之間的關係中允許一定程度的非線性,同時保留了線性預測指標β'X的核心作用如經典線性回歸模型所示。在某些條件下,僅將OLS應用於單個索引模型的數據將始終如一地估計β至比例常數。

分層線性模型

層次線性模型(或多級回歸)將數據組織為回歸的層次結構,例如,在B上回歸A ,並且BC進行了回歸。通常使用感興趣的變量具有自然的等級結構,例如在教育統計中,學生嵌套在教室裡,教室嵌套在學校中,而學校則嵌套在某些行政組合中,例如學區。響應變量可能是對學生成就的衡量標準,例如測試成績,並且將在課堂,學校和學區級別收集不同的協變量。

變異的錯誤

變量模型(或“測量誤差模型”)擴展了傳統的線性回歸模型,以允許使用誤差觀察預測變量x 。此誤差導致β的標準估計量變得有偏見。通常,偏見的形式是一種衰減,這意味著效果偏向零。

小組效應

在多個線性回歸模型中

範圍預測變量代表個人效應 。它的解釋是響應變量的預期變化什麼時候增加一個單位,而其他預測變量保持恆定。什麼時候與其他預測變量密切相關,這是不可能的可以增加一個單位,而其他變量保持恆定。在這種情況下,解釋由於它是基於不可能的狀況而變得有問題的不能孤立地評估。

對於一組預測變量,例如 ,小組效應被定義為其參數的線性組合

在哪裡體重向量令人滿意 。由於限制 ,,,, 也稱為歸一化組效應。小組效應具有預期變化的解釋當組中的變量按數量更改同時,分別沒有變量在組中保持常數。它概括了變量的個體影響到一組變量( ) 如果 ,然後小組的效果降低到個人效應,並且 ) 如果為了 ,然後小組效應也會降低到個體效應。小組效應據說如果基本的同時改變變量是可能的。

小組效應提供了一種研究線性回歸模型中強相關預測變量的集體影響的方法。此類變量的個體效果沒有明確的明確定義,因為它們的參數沒有良好的解釋。此外,當樣本量不大時,由於多重共線性問題,最小二乘回歸無法準確估算它們的參數。然而,有有意義的群體效應具有良好的解釋,可以通過最小二乘回歸來準確估算。識別這些有意義的群體效應的一種簡單方法是使用強相關變量的所有正相關(APC)排列,在這些變量下,這些變量之間的成對相關性都是正面的,並標準化了所有變量預測變量在模型中,使它們的平均零和長度為1。為了說明這一點,假設是一組APC排列中的一組密切相關的變量,並且它們與組以外的預測變量沒有密切相關。讓成為中心成為標準化 。然後,標準化的線性回歸模型為

參數在原始模型中,包括 ,是簡單的功能在標準化模型中。變量的標準化不會改變其相關性,因此是一組APC排列中的一組強相關變量,它們與標準化模型中的其他預測變量沒有密切相關。小組效應的

它的最小值無偏線性估計器是

在哪裡是最小二乘的估計器 。特別是,群體的平均效應的平均效應標準化變量是

它的解釋是預期的變化全部在密切相關的群體中,增加一個單元的TH同時具有組以外的變量保持常數。具有強大的正相關和標準化單元中,該組的變量大致相等,因此它們很可能同時增加和相似的數量。因此,平均組效應是有意義的效果。它可以通過其最小值無偏線性估計器來準確估計 ,即使是單獨的可以準確地估計

並非所有組效應都是有意義的,或者可以準確估計。例如, 是體重的特殊組效應為了 ,但不能準確地估計 。這也不是有意義的效果。通常,對於一群標準化模型中APC排列中的強烈相關的預測變量,其權重向量的組效應在單純形的中心或附近 (( )是有意義的,可以通過其最小值無偏線性估計器來準確估算。遠離中心的重量向量的效果並不有意義,因為這種權重矢量代表了變量的同時變化,這些變量違反了APC排列中標準化變量的強正相關性。因此,它們不可能。這些效果也無法準確估計。

組效應的應用包括(1)估計和推斷有意義的小組對響應變量的影響,(2)測試對響應變量的測試通過測試變量相對 ,(3)表徵預測變量空間的區域,其中最小二乘估計模型的預測是準確的。

原始變量的組效應可以作為恆定時間表示標準化變量的組效應 。前者是有意義的。因此,可以通過標準化變量的有意義的組效應來找到原始變量的有意義的組效應。

其他的

dempster -shafer理論或尤其是線性信念函數中,線性回歸模型可以表示為部分掃描的矩陣,可以將其與代表觀測值和其他假定正常分佈和狀態方程的相似矩陣結合使用。掃掠矩陣的組合提供了一種估計線性回歸模型的替代方法。

估計方法

已經開發了大量程序,用於線性回歸中的參數估計和推斷。這些方法在算法的計算簡單性,封閉形式的解決方案的存在,相對於重尾分佈的魯棒性以及驗證驗證理想的統計特性(例如一致性和漸近效率)所需的理論假設。

下面總結了一些線性回歸的一些更常見的估計技術。

最小二乘估計和相關技術

弗朗西斯·加爾頓(Francis Galton)1886年的成年人與父母之間的相關性的插圖。觀察到成年子女的高度往往偏離平均身高少於他們的父母所暗示的“回歸對均值”的概念,從而使回歸的名字命名。通過橢圓上最左側和最右點的“水平切向點的座位”(這是根據數據估計的雙變量正態分佈水平曲線)是OLS對孩子高度的回歸的回歸,而對孩子高度的回歸進行了估計“垂直切向點的軌跡”是對父母高度上兒童高度回歸的OLS估計。橢圓的主要軸是TLS估計值。

假設自變量是並且模型的參數是 ,那麼模型的預測將是

.

如果擴展到然後將成為參數和自變量的點產物,即

.

在最小二乘設置中,最佳參數被定義為最大程度地減少平均損失的總和:

現在將矩陣中的獨立變量和因變量放在分別可以將損失函數重寫為:

由於損耗為凸,最佳溶液位於梯度零。損失函數的梯度是(使用分母佈局約定):

將梯度設置為零會產生最佳參數:

注意:證明獲得的確實是局部最低限度,需要再次區分以獲取Hessian矩陣並表明它是積極的。這是由高斯 - 馬克夫定理提供的。

線性最小二乘方法主要包括:

最大樣本估計和相關技術

  • 當已知誤差項的分佈屬於概率分佈的某個參數家族ƒθ時,可以執行最大似然估計。當平均值零和方差θ的正態分佈時,所得估計與OLS估計值相同。當ε遵循具有已知協方差矩陣的多元正態分佈時,GLS估計值是最大似然估計。
  • 脊回歸和其他形式的懲罰估計(例如套索回歸)故意將偏見引入β的估計中,以減少估計值的變異性。最終的估計值通常比OLS估計值較低,尤其是當存在多重共線性過度擬合時。當目標是預測尚未觀察到的預測變量X值的響應變量y的值時,通常使用它們。當推斷目標時,這些方法並不常用,因為很難解釋偏見。
  • 絕對偏差(LAD)回歸是一種可靠的估計技術,因為它對異常值的敏感不如OLS(但在不存在異常值時效率低,而不是OLS)。它等效於ε的拉普拉斯分佈模型下的最大似然估計。
  • 自適應估計。如果我們假設錯誤術語獨立於回歸器,則 ,那麼最佳估計器是2步MLE,其中第一步用於非參數估計誤差項的分佈。

其他估計技術

對帶有異常值的一組點的Theil -Sen估計器(黑色)和簡單線性回歸(藍色)的比較
  • 貝葉斯線性回歸貝葉斯統計的框架應用於線性回歸。 (另請參見貝葉斯多元線性回歸。)特別是,假定回歸係數β是具有指定先驗分佈的隨機變量。先前的分佈可以以類似於(但比)脊回歸套索回歸的方式偏向回歸係數的溶液。此外,貝葉斯估計過程不是回歸係數的“最佳”值而不是單點估計值,而是整個後驗分佈,完全描述了圍繞數量的不確定性。這可用於使用平均值,模式,中位數,任何分位數(請參閱分位數回歸)或後驗分佈的任何其他功能來估計“最佳”係數。
  • 分位數回歸側重於給定X的條件分位數而不是給定X的條件均值線性分位數回歸模擬了特定條件分位數,例如條件中位數,作為預測因子的線性函數βt x
  • 當依賴關係具有已知結構時,混合模型被廣泛用於分析涉及依賴數據的線性回歸關係。混合模型的常見應用包括分析涉及重複測量的數據,例如縱向數據或從集群採樣獲得的數據。它們通常使用最大似然或貝葉斯估計作為參數模型。在將誤差建模為正常隨機變量的情況下,混合模型與廣義最小二乘之間存在密切的聯繫。固定效應估計是分析此類數據的另一種方法。
  • 當預測變量的數量較大或預測變量之間存在強相關性時,使用主成分回歸(PCR)。此兩級過程首先使用主組件分析降低了預測變量,然後在OLS回歸擬合中使用減少變量。儘管它通常在實踐中運作良好,但沒有一般理論的理由,即預測變量的最有用的線性函數應位於預測變量變量的多元分佈的主要主成分中。部分最小二乘回歸是PCR方法的擴展,該方法不會遭受上述缺陷的影響。
  • 最小角度回歸是線性回歸模型的估計程序,該模型是為處理高維協變量向量而開發的,可能比觀測值更多的協變量。
  • Theil -Sen估計量是一種簡單的穩健估計技術,它選擇擬合線的斜率通過樣品對成對作為線條斜率的中位數。它具有與簡單線性回歸相似的統計效率屬性,但對異常值的敏感程度要差得多。
  • 已經引入了其他強大的估計技術,包括αTrimmed平均方法,以及L-,M-,S-和R估計器

申請

線性回歸廣泛用於生物,行為和社會科學中,以描述變量之間可能的關係。它是這些學科中最重要的工具之一。

趨勢線

趨勢線代表了趨勢,在考慮了其他組件後,時間序列數據的長期運動。它告訴特定數據集(例如GDP,石油價格或股票價格)是否在此期間上漲或下降。可以簡單地通過一組數據點來吸引趨勢線,但是更正確地使用線性回歸等統計技術來計算它們的位置和斜率。趨勢線通常是直線,儘管某些變化使用較高程度的多項式,具體取決於線路中所需的曲率程度。

有時在業務分析中使用趨勢線來顯示數據隨時間變化。這具有簡單的優勢。趨勢線通常被用來爭辯說,特定的動作或事件(例如培訓或廣告活動)在某個時間點引起了觀察到的變化。這是一種簡單的技術,不需要對照組,實驗設計或複雜的分析技術。但是,在其他潛在變化可能影響數據的情況下,它缺乏科學有效性。

流行病學

關於煙草吸煙與死亡率和發病率有關的早期證據來自採用回歸分析的觀察性研究。為了在分析觀察數據時減少虛假相關性,研究人員通常在其回歸模型中包括幾個變量,除了主要關注的變量。例如,在一個回歸模型中,吸煙是主要興趣的獨立變量,而因變量是在幾年中衡量的壽命,研究人員可能會將教育和收入作為其他獨立變量包括在內,以確保吸煙對壽命的任何影響是不是由於其他社會經濟因素。但是,永遠不可能在經驗分析中包括所有可能的混雜變量。例如,假設的基因可能會增加死亡率,也會導致人們吸煙更多。因此,與使用觀察數據的回歸分析相比,隨機對照試驗通常能夠產生因果關係的更具吸引力的證據。當受控實驗不可行時,可以使用回歸分析(例如儀器變量回歸)的變體來嘗試從觀察數據估算因果關係。

金融

資本資產定價模型使用線性回歸以及Beta的概念來分析和量化投資的系統風險。這直接來自線性回歸模型的Beta係數,該模型將投資回報率與所有風險資產的回報率相關聯。

經濟學

線性回歸是經濟學中主要的經驗工具。例如,它用於預測消費支出固定的投資支出,庫存投資,購買一個國家的出口進口支出,持有流動資產勞動力需求勞動力供應的需求。

環境科學

線性回歸發現在廣泛的環境科學應用中的應用。在加拿大,環境效果監測計劃使用對魚類和底棲調查的統計分析來測量紙漿磨坊或金屬礦山廢水對水生生態系統的影響。

機器學習

線性回歸在稱為機器學習人工智能子場中起著重要作用。線性回歸算法由於其相對簡單性和眾所周知的特性,是基本監督的機器學習算法之一。

歷史

Legendre (1805)和Gauss (1809)進行了最小二乘線性回歸,作為找到對一組點的良好粗糙線性擬合的一種手段,以預測行星運動。 Quetelet負責使該程序眾所周知,並在社會科學中廣泛使用它。

也可以看看