時間序列

在數學中,時間序列是按時間順序索引(或列出或繪製)的一系列數據點。最常見的是,時間序列是在連續的相等時間點上採取的序列。因此,它是一系列離散時間數據。時間序列的示例是海潮的高度,黑子的數量以及道瓊斯工業平均水平的每日關閉價值。
時間序列通常是通過運行圖表繪製的(這是時間表圖)。時間序列用於統計,信號處理,模式識別,計量經濟學,數學金融,天氣預報,地震預測,腦電圖,控制工程,天文學,通信工程,以及在任何應用科學和工程的領域中,參與時間衡量的任何領域。
時間序列分析包括用於分析時間序列數據的方法,以提取有意義的統計數據和數據的其他特徵。時間序列預測是使用模型根據先前觀察到的值預測未來值。雖然回歸分析通常以測試一個或多個不同時間序列之間的關係的方式進行,但這種類型的分析通常不稱為“時間序列分析”,這特別是指單個單個時間點之間的關係系列。
時間序列數據具有自然的時間順序。這使得時間序列分析不同於橫截面研究,其中觀察結果沒有自然的順序(例如,通過參考各自的教育水平來解釋人們的工資,其中可以按任何順序輸入個人數據)。時間序列分析也不同於空間數據分析,其中觀察結果通常與地理位置有關(例如,按位置以及房屋的內在特徵來計算房價)。一個時間序列的隨機模型通常會反映出一個事實,即觀察隨著時間的流逝而與觀察進一步分開更緊密相關。此外,時間序列模型通常會利用自然的單向時間順序,因此給定時期的值將以某種方式從過去的值中而不是從未來的值中衍生而來(請參閱時間可逆性)。
時間序列分析可以應用於實價,連續數據,離散數字數據或離散符號數據(即字符的序列,例如英語中的字母和單詞)。
分析方法
時間序列分析的方法可以分為兩類:頻域方法和時間域方法。前者包括光譜分析和小波分析;後者包括自動相關和互相關分析。在時間域中,可以使用縮放相關性以類似濾波器的方式進行相關性和分析,從而減輕在頻域中運行的需求。
此外,時間序列分析技術可以分為參數和非參數方法。參數方法假設潛在的固定隨機過程具有某些結構,可以使用少量參數描述(例如,使用自回歸或移動平均模型)。在這些方法中,任務是估計描述隨機過程的模型的參數。相比之下,非參數方法明確估計了該過程的協方差或過程的光譜,而無需假設該過程具有任何特定的結構。
面板數據
時間序列是一種類型的面板數據。面板數據是通用類,是多維數據集,而時間序列數據集是一維面板(以及橫截面數據集)。數據集可以顯示面板數據和時間序列數據的特徵。一種說明的方法是詢問是什麼使一個數據記錄與另一個記錄中的獨特之處。如果答案是時間數據字段,那麼這是時間序列數據集候選者。如果確定唯一記錄需要時間數據字段和其他與時間無關的標識符(例如,學生ID,庫存符號,國家代碼),則是面板數據候選者。如果分化位於非時標識符上,則數據集將是橫截面數據集候選者。
分析
時間序列有幾種類型的動機和數據分析,適用於不同目的。
動機
在統計,計量經濟學,定量金融,地震學,氣象學和地球物理的背景下,時間序列分析的主要目標是預測。在信號處理,控制工程和通信工程的背景下,它用於信號檢測。其他應用程序包括數據挖掘,模式識別和機器學習,其中時間序列分析可用於聚類,分類,按內容,異常檢測以及預測。
探索性分析

一種直接檢查常規時間序列的直接方法是用線圖手動的。示例圖顯示在美國通過電子表格程序製成的美國結核病發生率的右側。案件的數量已標準化為每100,000率,併計算出每年的變化百分比。幾乎穩步下降的線表明,大多數年份結核病的發病率在下降,但該速度的變化百分比差異高達+/- 10%,1975年及1990年代初的“ SURGES”。兩個垂直軸的使用允許在一個圖形中比較兩個時間序列。
一項對公司數據分析師的研究發現了探索性時間序列分析的兩個挑戰:發現有趣模式的形狀,並為這些模式找到解釋。表示時間序列數據作為熱圖矩陣的視覺工具可以幫助克服這些挑戰。
其他技術包括:
- 自相關分析以檢查串行依賴性
- 光譜分析以檢查不需要與季節性有關的環狀行為。例如,黑子活動在11年的周期中變化。其他常見的例子包括天體現象,天氣模式,神經活動,商品價格和經濟活動。
- 分為代表趨勢,季節性,緩慢變化以及週期性不規則的組成部分:請參閱趨勢估計和分解時間序列
曲線擬合
曲線擬合是構建曲線或數學功能的過程,它最適合一系列數據點,可能受到約束。曲線擬合可能涉及插值,其中需要與數據完全擬合或平滑,其中構建了“平滑”函數,該函數大致適合數據。一個相關的主題是回歸分析,它更多地關注統計推斷的問題,例如在曲線中存在多少不確定性,該曲線適合隨機錯誤觀察到的數據。擬合曲線可以用作數據可視化的幫助,推斷出無可用數據的函數的值,並總結兩個或多個變量之間的關係。外推是指超出觀察到數據範圍的擬合曲線的使用,並且會受到一定程度的不確定性,因為它可能反映了用於構造曲線的方法,因為它反映了觀察到的數據。

對於預期的過程,可以通過估計其參數來擬合圖形(以及許多其他)的圖形曲線之一。
經濟時間序列的構建涉及對某些日期的某些組成部分的估計,該日期是通過值(“基準”)之間的插值來估算的。插值是對兩個已知數量(歷史數據)之間未知數量的估計,或從可用信息中得出有關丟失信息的結論(“線之間的讀取”)。插值是有用的,圍繞丟失數據的數據可用,並且已知其趨勢,季節性和長期週期。這通常是通過使用所有相關日期已知的相關係列來完成的。另外,使用多項式插值或樣條插值,而分段多項式函數則擬合到時間間隔中,以使它們平穩地擬合在一起。與插值密切相關的另一個問題是通過簡單函數(也稱為回歸)對複雜函數的近似。回歸和插值之間的主要區別在於,多項式回歸給出了一個單個多項式,該多項式對整個數據集進行了建模。但是,樣條插值產生了由許多多項式組成的分段連續函數,以對數據集進行建模。
外推是估算最初觀察範圍之外的過程,即變量與另一變量的關係的變量值。它類似於插值,該插值在已知的觀察結果之間產生估計,但是外推會遭受更大的不確定性,並且產生毫無意義的結果的風險更高。
功能近似
通常,函數近似問題要求我們在定義明確的類之間選擇一個函數,該類以特定於任務的方式與目標函數緊密匹配(“近似”)。一個人可以區分兩個主要函數近似問題類別:首先,對於已知目標函數,近似理論是數值分析的分支,該分支研究了特定類別的函數(對於某些已知功能(例如,特殊功能)如何近似(對於某些已知功能)(對於特殊功能)(對於例如,多項式或有理函數)通常具有理想的屬性(廉價計算,連續性,積分和限制值等)。
其次,目標函數稱為g ,可能是未知的。僅提供了一組( x , g ( x ))的點(時間序列),而不是明確的公式。根據G的結構和G的結構,可以適用幾種用於近似G的技術。例如,如果G是對實際數字,插值技術,外推,回歸分析和曲線擬合的操作。如果G的Codomain (範圍或目標集)是有限的集合,則將處理分類問題。在線時間序列近似的一個相關問題是在一個通道中總結數據並構建一個近似表示,該表示可以支持各種時間序列查詢,並在最壞情況下誤差界限。
在某種程度上,不同的問題(回歸,分類,健身近似)在統計學習理論中獲得了統一的治療方法,在該理論中,它們被視為監督學習問題。
預測和預測
在統計中,預測是統計推斷的一部分。一種特殊的推理方法稱為預測推斷,但是可以在統計推斷的幾種方法中進行預測。的確,對統計數據的一種描述是,它提供了一種將有關人口樣本的知識轉移到整個人群以及其他相關人群的方法,這不一定與隨著時間的推移的預測相同。當信息跨時間傳輸時,通常會轉移到特定的時間點時,該過程被稱為預測。
- 完全形成的隨機模擬目的的統計模型,以生成時間序列的替代版本,代表未來非特定時間週期的情況
- 鑑於了解最新結果(預測),簡單或完全形成的統計模型可以描述不久的未來時間序列的可能結果。
- 預測時間序列通常是使用自動化的統計軟件包和編程語言進行的,例如Julia , Python , R , SAS ,SPS, SPSS等。
- 可以使用Apache Spark使用Spark-TS庫(第三方軟件包)對大規模數據進行預測。
分類
將時間序列模式分配給特定類別,例如根據手語中的一系列手動運動識別一個單詞。
信號估計
這種方法基於使用傅立葉變換和光譜密度估計的諧波分析和對頻域中信號的過濾,在第二次世界大戰期間,數學家諾伯特·維納( Norbert Wiener )在第二次世界大戰期間的發展顯著加速以及其他用於從噪聲中過濾信號並在某個時間點預測信號值的信號。參見Kalman過濾器,估計理論和數字信號處理
分割
將時間序列分成一系列段。通常,時間序列可以表示為單個段的序列,每個片段都具有自己的特徵屬性。例如,電話會議中的音頻信號可以分為與每個人講話的時間相對應的部分。在時間序列分段中,目標是確定時間序列中的段邊界點,並表徵與每個段相關的動力學屬性。可以使用更改點檢測或將時間序列建模為更複雜的系統,例如Markov跳躍線性系統來解決此問題。
聚類
時間序列數據可能會聚集,但是在考慮子序列聚類時必須特別注意。
楷模
時間序列數據的模型可以具有多種形式,並表示不同的隨機過程。當對過程級別進行建模變化時,三個廣泛的實際重要性類別是自回歸(AR)模型,集成的(i)模型和移動平均(MA)模型。這三個類線性地取決於先前的數據點。這些想法的組合產生自回歸運動平均(ARMA)和自回歸的集成運動平均(ARIMA)模型。自回歸分數集成的移動平均(ARFIMA)模型概括了前三個。這些類以處理矢量值數據的擴展是在多變量時間序列模型的標題下獲得的,有時通過在“ vector”中包括初始的“ v”來擴展前一個首字母縮略詞,如var in var for var for向量自動化收入。這些模型的另一組擴展程序可用於使用,其中觀察到的時間序列由某些“強迫”時間序列驅動(這可能對觀察到的序列沒有因果影響):與多元案例的區別是強迫系列可能是確定性的,也可以在實驗者的控制下。對於這些模型,首字母縮略詞以“外源”的最終“ X”擴展。
一系列對先前數據點的水平的非線性依賴性令人感興趣,部分原因是產生混亂的時間序列。但是,更重要的是,實證研究可以表明使用非線性模型的預測,而不是線性模型的預測,例如在非線性自回歸外源性模型中。關於非線性時間序列分析的進一步參考:(Kantz和Schreiber)和(Abarbanel)
在其他類型的非線性時間序列模型中,有一些模型可以代表隨時間變化的變化( Heteroskedatocations )。這些模型代表自迴旋的條件異質性(ARCH),該集合包括各種各樣的表示( Garch ,Tarch,Egarch,Figarch,Cgarch等)。在這裡,可變性的變化與觀察到的序列的最近值有關或預測。這與局部變化的其他可能表示形式形成鮮明對比,在局部變化的變異性中,這種可變性可能被模型為由單獨的時間變化過程驅動的,例如在雙隨機模型中。
在最新的無模型分析工作中,基於小波變換的方法(例如本地固定的小波和分解的神經網絡)已獲得青睞。多尺度(通常稱為多分辨率)技術分解給定時間序列,試圖以多個尺度說明時間依賴性。另請參見Markov Switching多重分數(MSMF)技術,以建模波動率的演變。
隱藏的馬爾可夫模型(HMM)是一個統計馬爾可夫模型,其中被模型的系統被認為是具有未觀察(隱藏)狀態的馬爾可夫過程。 HMM可以視為最簡單的動態貝葉斯網絡。 HMM模型被廣泛用於語音識別,用於將語言單詞的時間序列轉換為文本。
這些型號中的許多型號都收集在Python軟件包SK期中。
符號
用於時間序列分析的許多不同符號。一個常見的符號指定由自然數索引的時間序列x編寫
- x =( x 1 , x 2 ,...)。
另一個常見的符號是
- y =( y t : t∈T ),
其中t是索引集。
狀況
有兩組條件在其中建立了許多理論:
崇高性意味著平穩性,但不一定是這種情況。平穩性通常分為嚴格的平穩性和寬或二階平穩性。儘管在後一種情況下的模型只能被視為部分指定的模型,但模型和應用都可以在每個條件下開發。
此外,可以在季節性固定或非平穩的情況下應用時間序列分析。可以在時間頻率分析中處理頻率分量幅度隨時間變化的情況,該分析利用時間序列或信號的時間- 頻率表示。
工具
研究時間序列數據的工具包括:
- 考慮自相關函數和光譜密度函數(還互相關函數和跨光譜密度函數)
- 縮放的跨和自動相關函數以刪除慢組分的貢獻
- 執行傅立葉變換以調查頻域中的系列
- 離散,連續或混合時間的時間序列,具體取決於時間序列是否包含(廣義)諧波信號
- 使用過濾器消除不需要的噪音
- 主成分分析(或經驗正交函數分析)
- 奇異頻譜分析
- “結構”模型:
- 一般狀態空間模型
- 未觀察到的組件模型
- 機器學習
- 排隊理論分析
- 控製圖
- 降低波動分析
- 非線性混合效應建模
- 動態的時間扭曲
- 動態貝葉斯網絡
- 時頻分析技術:
- 混沌分析
措施
- 單變量線性測量
- 單變量非線性度量
- 其他單變量措施
- 算法複雜性
- Kolmogorov複雜性估計
- 隱藏的馬爾可夫模型狀態
- 粗糙的路徑簽名
- 替代時間序列和替代校正
- 復發喪失(非平穩性程度)
- 雙變量線性度量
- 雙變量非線性度量
- 相似性措施:
- 互相關
- 動態的時間扭曲
- 隱藏的馬爾可夫模型
- 編輯距離
- 總相關
- Newey -West估算器
- Prais – Winsten轉型
- 數據作為矢量在一個可遷移的空間中
- 數據作為帶信封的時間序列
- 被解釋為隨機系列的數據
- 被解釋為概率分佈函數的數據
可視化
時間序列可以使用兩類圖表來可視化:重疊圖表和分離圖表。重疊圖表在同一佈局上顯示歷史序列,而分開的圖表則在不同的佈局上顯示它們(但為了比較目的而對齊)
重疊圖表
- 編織圖
- 線圖
- 坡度圖
- Gapchart fr
分開的圖表
- 地平線圖
- 減少線圖(小倍數)
- 輪廓圖
- 圓形輪廓圖