回歸分析

在圍繞y = 1.5倍+2線周圍的高斯分佈中的50個隨機點的回歸線(未顯示)

統計建模中,回歸分析是一組統計過程,用於估計因變量(通常稱為“結果”或“響應”變量或機器學習規範中的“標籤”)和一個或多個自變量(通常稱為“預測變量”,“協變量”,“解釋變量”或“功能”)。回歸分析的最常見形式是線性回歸,其中人們發現該線(或更複雜的線性組合)最能根據特定的數學標準非常擬合數據。例如,普通最小二乘的方法計算獨特的線(或超平面),從而最大程度地減少了真實數據與該線(或超平面)之間平方差的總和。出於特定的數學原因(請參閱線性回歸),這使研究人員能夠估算自變量對定變量的有條件期望(或人口平均值)的條件期望(或人口平均值)。較不常見的回歸形式使用略有不同的程序來估計替代位置參數(例如,分數回歸必要條件分析)或估計更廣泛的非線性模型集合(例如,非參數回歸)的條件期望。

回歸分析主要用於兩個概念上不同的目的。首先,回歸分析被廣泛用於預測預測,在該預測和預測中,其使用與機器學習領域具有很大的重疊。其次,在某些情況下,回歸分析可用於推斷自變量和因變量之間的因果關係。重要的是,回歸本身僅揭示因變量與固定數據集中自變量集合之間的關係。要分別使用回歸進行預測或推斷因果關係,研究人員必須仔細證明為什麼現有關係具有針對新環境的預測能力,或者為什麼兩個變量之間的關係具有因果解釋。當研究人員希望使用觀察數據估計因果關係時,後者尤其重要。

歷史

回歸最早形式是最小二乘的方法,該方法是由Legendre於1805年發表的。 (主要是彗星,但後來又是當時新發現的小行星)。高斯在1821年發表了最小二乘理論的進一步發展,其中包括Gauss -Markov定理的版本。

弗朗西斯·加爾頓(Francis Galton)在19世紀創造了“回歸”一詞,以描述一種生物學現象。這一現像是,高個子祖先的後代的高度傾向於向正常平均水平降低(這種現像也稱為對平均值的回歸)。對於Galton來說,回歸僅具有這種生物學意義,但是他的工作後來被Udny YuleKarl Pearson擴展到了更一般的統計背景下。在Yule和Pearson的工作中,假定響應和解釋變量的聯合分佈被認為是高斯Ra Fisher在1922年和1925年的作品中削弱了這一假設。費舍爾認為響應變量的條件分佈是高斯,但關節分佈不一定是。在這方面,費舍爾的假設更接近高斯的1821年表述。

在1950年代和1960年代,經濟學家使用機電台計算器來計算回歸。在1970年之前,有時需要長達24小時才能從一次回歸中獲得結果。

回歸方法仍然是積極研究的領域。近幾十年來,已經開發了用於魯棒回歸的新方法,涉及相關響應的回歸,例如時間序列增長曲線,預測變量(自變量)或響應變量是曲線,圖像,圖形或其他復雜數據對象的回歸,回歸方法可容納各種類型的丟失數據,非參數回歸,回歸方法的貝葉斯方法,預測變量的回歸方法是通過誤差來測量預測變量的,比觀測值更多的預測變量回歸以及與回歸的因果推斷

回歸模型

在實踐中,研究人員首先選擇要估計的模型,然後使用他們選擇的方法(例如,普通最小二乘)來估計該模型的參數。回歸模型涉及以下組件:

  • 未知參數,通常稱為標量向量
  • 自變量在數據中觀察到,通常表示為矢量 (在哪裡表示一排數據)。
  • 因變量,在數據中觀察到,通常使用標量表示
  • 錯誤術語,該術語直接在數據中觀察到,並且通常使用標量表示

應用程序的各個領域中,使用不同的術語代替因變量和自變量

大多數回歸模型都建議是一個函數回歸函數 , 和代表一個添加誤差項,該術語可能代表未建模的決定因素或隨機統計噪聲:

研究人員的目標是估計功能最緊密地適合數據。為了進行回歸分析,功能的形式必須指定。有時,此功能的形式基於有關這不依賴數據。如果沒有此類知識,則是一種靈活或方便的形式選擇。例如,簡單的單變量回歸可能會提出 ,暗示研究人員相信對於生成數據的統計過程的合理近似值。

一旦研究人員確定了他們的首選統計模型,不同形式的回歸分析提供了估計參數的工具 。例如,最小二乘(包括最常見的變體,普通最小二乘)發現了這可以最大程度地減少平方錯誤的總和 。給定的回歸方法最終將提供 ,通常表示將估計與生成數據的真實(未知)參數值區分開。使用此估計,研究人員可以使用合適的值為了預測或評估模型解釋數據的準確性。研究人員是否對估計有固有的興趣或預測的價值將取決於上下文及其目標。如普通最小二乘中所述,最小二乘被廣泛使用,因為估計的功能近似條件期望 。但是,當研究人員想對其他功能進行建模

重要的是要注意,必須有足夠的數據來估計回歸模型。例如,假設研究人員可以訪問一行具有一個因變量和兩個自變量的數據: 。進一步假設研究人員希望通過最小二乘估算雙變量線性模型: 。如果研究人員只能訪問數據點,然後他們可以找到許多組合同樣很好地解釋數據:可以選擇滿足的任何組合 ,所有這些導致因此,是最小化平方殘差之和的有效解決方案。要了解為什麼有很多選擇,請注意方程將用於3個未知數,這使系統不確定。另外,人們可以無限地想像許多經過的三維平面固定點。

更一般地,不同的參數,一個必須具有不同的數據點。如果 ,那麼通常不存在一組將完全適合數據的參數。數量經常出現在回歸分析中,被稱為模型中自由度。此外,為了估計最小二乘模型,自變量必須是線性獨立的必須通過添加和乘以其餘的自變量來重建任何自變量。正如普通最小二乘中所討論的那樣,這種情況確保了可逆矩陣,因此是獨特的解決方案存在。

基礎假設

就其本身而言,回歸只是使用數據的計算。為了將回歸的輸出解釋為衡量現實世界關係的有意義的統計數量,研究人員通常依靠許多經典的假設。這些假設通常包括:

少數條件足以使最小二乘估計量具有理想的特性:尤其是,高斯 - 馬克夫(Gauss-Markov)的假設表明,在線性無偏估計器類別中,參數估計值將是公正的一致的有效的。從業者開發了多種方法來在現實世界中維護某些或所有這些期望的屬性,因為這些經典假設不太可能確切地存在。例如,建模錯誤中的錯誤可能會導致合理的估計值自變量以錯誤來測量。異性矛盾的標準錯誤允許差異跨越值 。可以使用群集的標準誤差,地理加權回歸Newey -West標準誤差以及其他技術來處理數據集中存在或遵循特定模式的相關誤差。當數據行對應於太空中的位置時,如何選擇如何建模在地理單元內可能會產生重要的後果。計量經濟學的子領域主要集中於開發技術,使研究人員能夠在現實世界中得出合理的現實世界結論,在現實世界中,經典假設不完全存在。

線性回歸

在線性回歸中,模型規範是因變量, 參數線性組合(但不必在自變量中是線性的)。例如,在簡單的線性回歸中用於建模數據點有一個自變量: 和兩個參數,

直線:

在多個線性回歸中,有幾個自變量或自變量的函數。

添加一個術語前面的回歸給出了:

拋物線:

這仍然是線性回歸。儘管右側的表達式在自變量中是二次的 ,在參數中是線性的 ,,,,

在這兩種情況下, 是錯誤術語和下標索引特定的觀察結果。

將我們的注意力歸還直線情況:鑑於人群中的隨機樣本,我們估算了種群參數並獲得樣本線性回歸模型:

殘留 ,是模型預測的因變量的值之間的差異, ,以及因變量的真實值, 。一種估計方法是普通的最小二乘。此方法獲得的參數估計值將平方殘差的總和SSR

最小化此函數會導致一組正常方程,這是參數中的一組同時線性方程,這些方程已求解以產生參數估計器,即

數據集的線性回歸的插圖

在簡單回歸的情況下,最小二乘估計的公式為

在哪裡平均(平均) 值和值。

假設人口誤差項具有恆定的差異,該方差的估計值是由以下方式給出的。

這稱為回歸的均方誤差(MSE)。分母是通過從相同數據估算的模型參數數量減少的樣本量, 為了回歸器如果使用攔截。在這種情況下, 所以分母是

參數估計的標準錯誤

在進一步的假設是人口誤差項是正態分佈的,研究人員可以使用這些估計的標準誤差來創建置信區間並進行有關人口參數的假設測試

一般線性模型

在更一般的多重回歸模型中,有自變量:

在哪裡是個 - 關於 - th自變量。如果第一個自變量將所有值1的值1 ,,,, , 然後稱為回歸截距

最小二乘參數估計是從正常方程。殘留可以寫為

正常方程

在矩陣符號中,正常方程式寫為

在哪裡元素 , 這列矢量的元素元素 。因此 ,,,, , 和 。解決方案是

診斷

一旦構建了回歸模型,確認模型擬合良好以及估計參數的統計意義可能很重要。常用的擬合良好檢查包括R平方,分析殘差模式和假設檢驗。統計顯著性可以通過整體擬合的f檢驗來檢查,其次是單個參數的t檢驗

這些診斷測試的解釋在很大程度上取決於模型的假設。儘管對殘差的檢查可用於使模型無效,但t檢驗f檢驗的結果有時更難解釋是否違反了模型的假設。例如,如果錯誤項沒有正態分佈,則在小樣本中,估計的參數將不會遵循正常分佈並使推理複雜化。但是,對於相對較大的樣品,可以調用中心極限定理,以便可以使用漸近近似值進行假設檢驗。

因變量有限

有限的因變量,是分類變量的響應變量,或者是被限制僅在一定範圍內的變量,通常是在計量經濟學中出現的。

響應變量可能是非連續的(“有限”位於實際線的某些子集上)。對於二進制變量(零或一個)變量,如果分析以最小二乘線性回歸進行,則該模型稱為線性概率模型。二進制依賴變量的非線性模型包括概率logit模型多元概率模型是估計幾個二進制依賴變量與某些自變量之間的關節關係的標準方法。對於具有兩個以上值的分類變量,有多項式logit 。對於具有兩個以上值的序數變量,有有序的logit有序的概率模型。當僅觀察到因變量時,可以使用審查的回歸模型,並且當未從感興趣的群體中隨機選擇樣本時,可以使用Heckman校正類型模型。此類過程的替代方法是基於分類變量之間的多choric相關性(或多性相關性)的線性回歸。這種程序在人群中變量的分佈的假設上有所不同。如果變量為較低值的正值並表示事件發生的重複,則可以使用諸如Poisson回歸負二項式模型之類的計數模型。

非線性回歸

當模型函數在參數中不是線性的時,必須通過迭代過程將平方之和最小化。這引入了許多並發症,這些並發症總結為線性和非線性最小二乘之間的差異

預測(插值和外推)

在中間,插值直線表示該線上和下方的點之間的最佳平衡。虛線表示兩條極端線。第一曲線代表估計值。外曲線代表了新測量的預測。

回歸模型在給定X變量的已知值下預測Y變量的值。用於模型擬合的數據集中值範圍的預測非正式地稱為插值。在此數據范圍之外的預測被稱為外推。進行外推的強烈依賴於回歸假設。推斷越遠,由於假設和示例數據或真實值之間的差異,模型失敗的空間就越多。

代表不確定性的預測間隔可能伴隨點預測。隨著自變量變量的值超出觀察到的數據所涵蓋的範圍,這種間隔往往會迅速擴展。

出於這種原因和其他原因,有些人傾向於說進行外推可能是不明智的。

但是,這並不涵蓋可能犯下的完整建模錯誤:特別是,是yx之間關係的特定形式的假設。正確執行的回歸分析將包括評估假定形式與觀察到的數據匹配的效果,但它只能在實際可用的自變量值的值範圍內進行。這意味著任何外推都特別依賴於對回歸關係的結構形式所做的假設。如果此知識包括因變量不能超出一定範圍的值的事實,則可以在選擇模型中使用這一點 - 即使觀察到的數據集沒有特別在此類界限附近的值。當考慮外推時,選擇適當的功能形式的這一步驟的含義可能很棒。至少,它可以確保擬合模型引起的任何外推是“現實的”(或與已知的內容相符)。

功率和样本量計算

沒有一般商定的方法可以將觀測值與模型中的自變量數量相關。一種由良好和哈丁猜想的方法是 , 在哪裡是樣本量, 是自變量的數量, 如果模型只有一個自變量,則需要觀察到達到所需精度所需的觀察次數。例如,研究人員正在使用包含1000名患者的數據集建立線性回歸模型( )。如果研究人員決定需要五個觀察來精確定義直線( ),那麼模型可以支持的最大自變量數為4,因為

.

其他方法

儘管通常使用最小二乘方法估算回歸模型的參數,但已使用的其他方法包括:

軟體

所有主要的統計軟件包都執行最小二乘回歸分析和推理。可以在某些電子表格應用程序和某些計算器上完成使用最小二乘的簡單線性回歸和多重回歸。儘管許多統計軟件包可以執行各種類型的非參數和魯棒回歸,但這些方法的標準化較少。不同的軟件包實現了不同的方法,並且具有給定名稱的方法可以在不同的軟件包中實現。專門的回歸軟件已開髮用於調查分析和神經影像學等領域。

也可以看看