預測建模
預測建模使用統計數據來預測結果。通常,人們想要預測的事件是將來,但是無論發生什麼何時發生,預測性建模都可以應用於任何類型的未知事件。例如,在犯罪發生後,通常使用預測模型來檢測犯罪並確定嫌疑犯。
在許多情況下,根據檢測理論選擇該模型,以試圖在給定一定的輸入數據的情況下猜測結果的概率,例如,給定電子郵件確定其垃圾郵件的可能性。
模型可以使用一個或多個分類器來嘗試確定屬於另一組數據的一組數據的概率。例如,可以使用模型來確定電子郵件是垃圾郵件還是“ HAM”(非垃圾郵件)。
根據定義界限,預測建模是機器學習領域的代名詞或很大程度上重疊的,因為它在學術或研發環境中更常見。當商業上部署時,預測建模通常稱為預測分析。
預測建模通常與因果建模/分析形成對比。在前者中,使用感興趣的結果的指標或代理可能會完全滿意。在後者中,人們試圖確定真正的因果關係。這種區別引起了研究方法和統計領域中新興的文獻,並引起了“相關性並不意味著因果關係”的共同陳述。
楷模
幾乎所有統計模型都可以用於預測目的。從廣義上講,有兩類的預測模型:參數和非參數。第三類半參數模型包括兩者的功能。參數模型提出了“針對錶徵基礎分佈的一個或多個種群參數的特定假設”。非參數模型“通常比參數模型的結構和分佈形式的假設更少,但通常包含關於獨立性的強有力的假設”。
申請
提升建模
提升建模是一種用於建模由動作引起的概率變化的技術。通常,這是一種營銷行動,例如購買產品,使用產品或重新簽訂合同的報價。例如,在保留活動中,您希望預測客戶如果與客戶聯繫的可能性變化。概率變化的模型使保留活動可以針對那些概率變化將是有益的客戶。這允許保留計劃避免觸發不必要的流失或客戶流失,而不會浪費錢與任何會採取行動的人聯繫。
考古學
考古學中的預測建模從秘魯維瓦爾谷(Virúvalley)的五十年代中期作品獲得了基礎。進行了完整的,密集的調查,然後在文化遺骸和自然特徵(例如斜坡和植被)之間進行協方差。定量方法的發展和更大的適用數據可用性導致該學科在1960年代的增長,到1980年代後期,全球主要的土地經理已經取得了很大的進步。
通常,考古學中的預測建模正在建立統計上有效的因果關係或協方差的關係,例如土壤類型,海拔,坡度,植被,與水,地質學,地質形態等以及考古特徵的存在。通過對經過考古調查的土地的這些可量化屬性的分析,有時可以根據這些地區的自然代理來預期未經調查的地區的“考古敏感性”。美國的大型土地經理,例如土地管理局(BLM),國防部(DOD)以及許多高速公路和公園機構,已成功採用了這一策略。通過在其文化資源管理計劃中使用預測性建模,他們可以在計劃有可能需要地面干擾並隨後影響考古遺址的活動的活動時做出更明智的決定。
客戶關係管理
預測建模廣泛用於分析客戶關係管理和數據挖掘中,以生成描述客戶採取特定操作的可能性的客戶級模型。行動通常是銷售,營銷和客戶保留率相關的。
例如,一個大型消費者組織(例如移動電信運營商)將擁有一系列用於產品交叉銷售,產品深銷售(或銷售)和流失的預測模型。現在,對於這樣一個組織,使用隆重模型具有可挽救性模型也更為普遍。這預示了與標準流失預測模型相比,合同期結束時可以保存客戶的可能性。
汽車保險
在車輛保險中使用預測性建模來從政策持有人獲得的信息中將事件的風險分配給政策持有人。這是在基於用法的保險解決方案中廣泛採用的,其中預測模型利用基於遙測的數據來建立索賠可能性的預測風險模型。 Black-Box汽車保險預測模型僅利用GPS或加速度計傳感器輸入。一些模型包括基本遙測之外的廣泛預測輸入,包括先進的駕駛行為,獨立的崩潰記錄,道路歷史記錄和用戶配置文件,以提供改進的風險模型。
衛生保健
2009年, Parkland Health&Hospital System開始分析電子病歷,以便使用預測建模來幫助識別患者的重新入院風險。最初,該醫院專注於充血性心力衰竭的患者,但該計劃已擴大到包括糖尿病,急性心肌梗塞和肺炎的患者。
2018年,Banerjee等人。提出了一個深度學習模型,用於通過分析電子病歷中的自由文本臨床筆記來估計患者的短期預期壽命(> 3個月),同時保持時間訪問順序。該模型在大型數據集(10,293例患者)上進行了培訓,並在分離的數據集(1818名患者)上進行了驗證。它在ROC(接收器操作特徵)曲線下達到了0.89的區域。為了提供解釋性,他們開發了一種交互式圖形工具,可以提高醫師對模型預測基礎的理解。 PPE-MET模型的高精度和解釋能力可能使該模型可以用作個性化轉移性癌症治療並為醫生提供寶貴援助的決策支持工具。
預測建模已用於估計手術持續時間。
算法交易
交易中的預測建模是一個建模過程,其中使用一組預測變量預測結果的概率。可以為股票,期貨,貨幣,商品等不同資產建立預測模型。預測建模仍被貿易公司廣泛使用,以設計戰略和貿易。它利用數學上高級軟件來評估價格,數量,開放興趣和其他歷史數據的指標,以發現可重複的模式。
鉛跟踪系統
預測建模可通過預測每個潛在廣告系列的數據驅動結果,從而為鉛生成器提供了前鋒的啟動。此方法節省了時間並暴露了潛在的盲點,以幫助客戶做出更明智的決定。
預測建模的顯著失敗
儘管不是由主流預測建模社區廣泛討論,但預測建模是一種過去在金融業中廣泛使用的方法,一些主要失敗導致了2007 - 2008年的金融危機。這些失敗體現了僅依靠本質上落後自然的模型的危險。以下示例絕不是完整的列表:
- 債券評級。標準普爾,穆迪(Moody's)和惠譽(Fitch)用稱為等級的離散變量量化債券默認的可能性。該評級可以從AAA到D的離散值來獲得D。等級是基於與借款人和歷史宏觀經濟數據相關的多種變量的默認風險的預測指標。評級機構在6000億美元的抵押抵押債務義務( CDO )市場上的評級失敗。幾乎整個AAA行業(以及超級AAA行業,是代表代表超級安全投資的評級機構的新評級)的CDO市場拖欠或嚴重降低的評級機構,其中許多人的評級不到一年前就獲得了。
- 到目前為止,尚無試圖根據歷史數據預測股票市場價格的統計模型,從長遠來看可以始終如一地做出正確的預測。一個特別令人難忘的失敗是長期資本管理,該基金聘請了高素質的分析師,包括諾貝爾經濟科學獎項獎,以開發出一個複雜的統計模型,以預測不同證券之間的價格差異。這些模型取得了令人印象深刻的利潤,直到導致當時的美聯儲主席艾倫·格林斯潘( Alan Greenspan)介入華爾街經紀人經銷商的救援計劃,以防止債券市場崩潰。
基於數據擬合的預測模型的基本局限性
歷史不能總是準確預測未來。使用從歷史數據得出的關係來預測未來,隱含地假設複雜系統中存在某些持久條件或常數。當系統涉及人們時,這幾乎總是會導致一些不精確。
未知未知是一個問題。在所有數據收集中,收集器首先定義了收集數據的變量集。但是,無論收藏家對變量的選擇有多廣泛,總有可能沒有考慮甚至定義的新變量,但對結果至關重要。
算法可以在對抗中擊敗。在算法成為公認的測量標準之後,可以利用理解算法並有動力欺騙或操縱結果的人利用它。這就是上面描述的CDO評級發生的事情。 CDO經銷商通過巧妙地操縱對評級機構的“複雜”模型“未知”的變量來積極履行評級機構的意見,以在他們發行的CDO上達到AAA或SUPER-AAA。