二項式回歸

統計中,二項式回歸是一種回歸分析技術,其中響應(通常稱為y )具有二項式分佈:這是一系列成功的數量獨立的Bernoulli試驗,每個試驗都有成功的概率 。在二項式回歸中,成功的概率與解釋變量有關:普通回歸中的相應概念是將未觀察到的響應的平均值與解釋變量聯繫起來。

二項式回歸與二元回歸密切相關:二元回歸可以被視為二項式回歸, ,或對未分組二進制數據的回歸,而二項式回歸可以視為分組二進制數據的回歸(請參閱比較)。二項式回歸模型與二進制選擇模型基本相同,一種離散選擇模型類型:主要差異是理論動機(請參閱比較)。在機器學習中,二項式回歸被認為是概率分類的特殊情況,因此是二進制分類的概括。

示例應用程序

在一個發表的二項式回歸應用示例中,細節如下。觀察到的結果變量是在工業過程中是否發生了故障。有兩個解釋變量:第一個是一個簡單的兩案因子,表示是否使用了該過程的修改版本,第二個是一個普通的定量變量,可測量為該過程提供的材料的純度。

模型的規範

假定響應變量y在解釋變量x上是二元分佈的條件。試驗n的數量是已知的,每個試驗P的成功概率被指定為函數θ(x) 。這意味著觀察到的成功分數y/n條件期望條件差異

二項式回歸的目標是估計函數θ(x) 。通常統計學家假設 ,對於已知函數m ,並估計βM的常見選擇包括邏輯功能

數據通常被擬合為通用線性模型,其中預測值μ是任何單個事件都會成功的概率。然後,預測的可能性

其中1 a是事件A發生時採用值1的指示函數,否則為零:在此公式中,對於任何給定的觀察y i ,產品中的兩個術語中只有一個根據y I i造成= 0或1。通過將形式參數μI定義為解釋變量的參數函數,更充分地指定了可能性:這可以根據降低的參數數量來定義可能性。通常通過採用最大可能性方法來確定這些參數來實現模型的擬合。在實踐中,將公式用作廣義線性模型的使用可以使某些算法思想的優勢在整個更通用模型中適用,但不適用於所有最大可能性問題。

二項式回歸中使用的模型通常可以擴展到多項式數據。

有許多方法可以以系統的方式生成μ的值,以解釋模型。他們在下面討論。

鏈接功能

有一個要求將概率μ與解釋變量聯繫起來的建模應為僅在0到1中產生值的形式。許多模型可以擬合到形式中

這裡η是一個中間變量,代表了解釋變量的線性組合,包含回歸參數。函數g是某些概率分佈累積分佈函數(CDF)。通常,此概率分佈從減去無窮大到加上無窮大的支持,因此函數g任何有限值都會轉換為範圍0到1內的值。

邏輯回歸的情況下,鏈接函數是優勢比或邏輯函數的日誌。在概率的情況下,鏈接是正態分佈的CDF。線性概率模型不是適當的二項式回歸規範,因為預測不必在零到一個範圍內。當概率空間是發生解釋的地方或分析師缺乏足夠的複雜性來擬合或計算概率的近似線性化以進行解釋時,有時將用於此類數據。

與二元回歸的比較

二項式回歸與二元回歸密切相關。如果響應是二進制變量(兩個可能的結果),則可以通過將結果之一視為“成功”,而將這些替代方案編碼為0或1,而將這些結果作為“失敗”,並將這些結果視為計數數據:“成功”:“成功”在1個試驗中是1個成功,而“失敗”是1個試驗中的0個成功。現在可以將其視為二項式分佈試驗,因此二元回歸是二項回歸的特殊情況。如果將這些數據分組(通過添加計數),它們不再是二進制數據,而是每個組的計數數據,仍然可以通過二項式回歸進行建模。然後將各個二進制結果稱為“未分組數據”。使用分組數據的優點是可以測試模型的擬合度;例如,分組數據可能相對於從未分組數據估計的方差表現出過度分散

與二元選擇模型的比較

二進制選擇模型假設了n從採取行動獲得的潛在變量效用(或淨福利)(而不是不採取行動)。人們從採取行動中獲得的效用取決於人的特徵,其中一些人是由研究人員觀察到的,有些不是:

在哪裡是一組回歸係數是描述人N的一組自變量(也稱為“功能”),可能是離散的“虛擬變量”或常規的連續變量。 是一個隨機變量,在預測中指定“噪聲”或“誤差”,假定根據某些分佈分配。通常,如果分佈中存在均值或方差參數,則無法識別,因此將參數設置為方便的值 - 按約定通常平均值為0,方差1。

如果u n > 0

該規範簡潔地寫為:

讓我們以略有不同的方式寫下:

在這裡,我們使替代e n = −εn 。這將隨機變量更改為略有不同的變量,該變量在被否定的域上定義。碰巧的是,我們通常會考慮的誤差分佈(例如邏輯分佈,標準正態分佈,標準學生的T分佈等)是對稱的,因此E n上的分佈與εn上的分佈相同。

表示累積分佈函數(CDF) 作為以及分位數函數(逆CDF) 作為

注意

自從伯努利的審判,那裡我們有

或等效

請注意,這完全等同於在廣義線性模型的形式主義中表達的二項式回歸模型。

如果 IE作為標準正態分佈分佈,然後

這正是概率模型

如果 IE作為標準邏輯分佈分佈,均值0和比例參數1,則相應的分位數函數logit函數,而

這正是logit模型

請注意,在簡單的二進制選擇模型的情況下,兩種不同的形式主義(廣義線性模型(GLM)和離散選擇模型)是等效的,但是如果方式不同,則可以擴展:

  • GLM可以輕鬆地處理任意分佈的響應變量因變量),而不僅僅是分類變量序數變量,這些變量或序數變量被離散的選擇模型限制在其性質上。 GLM也不僅限於與某些分佈的分位函數的鏈接函數,這與使用誤差變量不同,因此必須通過假設具有概率分佈
  • 另一方面,由於離散選擇模型被描述為生成模型的類型,因此在概念上將它們擴展到每個人或其他變體的多個,可能相關的選擇的複雜情況。

潛在變量解釋 /派生

可以構建涉及二項式觀察到的可變y潛在變量模型,以使y與潛在變量y*通過

然後,潛在變量y*與模型與一組回歸變量x相關

這導致了二項式回歸模型。

無法識別ϵ的差異,而當不感興趣的時候通常被認為等於一個。如果ϵ是正態分佈的,則概率是適當的模型,如果log-weibull分佈式分佈式,則logit是合適的。如果ϵ均勻分佈,則適當的線性概率模型。

也可以看看