數據分析

數據分析是檢查,清潔轉換建模數據的過程,目的是發現有用的信息,告知結論和支持決策。數據分析具有多種方面和方法,涵蓋了各種名稱下的多種技術,並用於不同的商業,科學和社會科學領域。在當今的商業世界中,數據分析在使決策更科學和幫助企業更有效地運作方面發揮了作用。

數據挖掘是一種特定的數據分析技術,側重於預測性而不是純描述目的的統計建模和知識發現,而商業智能涵蓋了嚴重依賴聚集的數據分析,主要關注於業務信息。在統計應用中,數據分析可以分為描述性統計探索性數據分析(EDA)和確認數據分析(CDA)。 EDA專注於發現數據中的新功能,而CDA則著重於確認或偽造現有假設預測分析的重點是用於預測性預測或分類的統計模型的應用,而文本分析(Text Analytics)應用統計,語言和結構技術來從文本源中提取和分類信息,這是一種非結構化數據。以上所有都是數據分析的品種。

數據集成是數據分析的先驅,數據分析與數據可視化和數據傳播密切相關。

數據分析的過程

Schutt&O'Neil(2013)的數據科學過程流程圖

分析是指將整體分為單獨的組成部分進行單獨檢查。數據分析是獲取原始數據過程,然後將其轉換為對用戶決策有用的信息。收集和分析數據以回答問題,檢驗假設或反駁理論。

統計學家約翰·圖基(John Tukey) ,在1961年定義了數據分析,AS:

“分析數據的過程,解釋此類過程結果的技術,計劃收集數據的方法,以使其分析更容易,更精確或更準確,以及(數學)統計的所有機械和結果,這些機器和結果適用於分析數據。”

可以區分幾個階段,如下所述。這些階段是迭代的,因為以後階段的反饋可能會導致較早的階段其他工作。數據挖掘中使用的清晰框架具有相似的步驟。

數據要求

數據是必需的,作為分析的輸入,該數據是根據指導分析的人的要求(或將使用分析的成品產品)指定的。收集數據的一般實體類型稱為實驗單位(例如,一個人或人口)。可以指定並獲得有關人群(例如年齡和收入)的特定變量。數據可能是數值或分類的(即,數字的文本標籤)。

數據採集

數據是從多種來源收集的。數據源清單可用於研究和研究。分析師可以向數據保管人傳達要求;例如,組織內部的信息技術人員。數據也可以從環境中的傳感器中收集,包括交通攝像頭,衛星,錄製設備等。還可以通過訪談,從在線來源下載或閱讀文檔來獲得。

數據處理

用於將原始信息轉換為可行的智能或知識的智能週期的階段在概念上與數據分析中的階段相似。

最初獲得的數據必須進行處理或組織以進行分析。例如,這些可能涉及將數據以表格格式(稱為結構化數據)放置在行和列中,以進行進一步分析,通常是通過使用電子表格或統計軟件。

數據清潔

一旦處理和組織,數據可能不完整,包含重複項或包含錯誤。數據清潔的需求將來自輸入和存儲數據的方式。數據清潔是預防和糾正這些錯誤的過程。常見的任務包括記錄匹配,確定數據的不准確性,現有數據的整體質量,重複數據刪除和列細分。這些數據問題也可以通過各種分析技術來確定。例如;有了財務信息,可以將特定變量的總數與被認為是可靠的單獨發布的數字進行比較。還可以審查不尋常的數量,高於預定的閾值或以下。數據清潔有幾種類型,取決於集合中的數據類型。這可能是電話號碼,電子郵件地址,雇主或其他價值觀。用於離群值檢測的定量數據方法可用於擺脫似乎不正確輸入可能性更大的數據。文本數據拼寫檢查器可用於減少錯誤的單詞的數量。但是,很難分辨單詞本身是否正確。

探索性數據分析

清潔數據集後,可以分析它們。分析師可以應用多種技術,稱為探索性數據分析,以開始理解所獲得的數據中包含的消息。數據探索過程可能會導致其他數據清理或數據探索的其他請求;因此,本節的主要段落中提到的迭代階段的初始化。可以生成描述性統計數據,例如平均值或中位數,以幫助理解數據。數據可視化也是一種使用的技術,在該技術中,分析師能夠以圖形格式檢查數據,以獲取有關數據中消息的其他見解。

建模和算法

數學公式模型(也稱為算法)可以應用於數據,以識別變量之間的關係。例如,使用相關因果關係。總體而言,可以開發模型來根據數據集中包含的其他變量評估特定變量,並根據實現的模型的準確性(例如,data = Model + Model +錯誤),其中一些殘差錯誤

推論統計包括利用測量特定變量之間關係的技術。例如,回歸分析可用於建模廣告(自變量x )的變化是否提供了銷售變化(因變量y )的說明。用數學術語來說, y (銷售)是x (廣告)的函數。它可以描述為( y = ax + b +誤差),其中設計模型的設計使得( a )和( b )當模型預測給定x值範圍的y時(a)和(b)最小化誤差。分析師還可以嘗試構建描述數據的模型,以簡化分析和傳達結果。

數據產品

數據產品是一種計算機應用程序,該應用程序獲取數據輸入並生成輸出,並將其饋入環境。它可能基於模型或算法。例如,一個分析有關客戶購買歷史記錄的數據的應用程序,並使用結果推薦客戶可能享受的其他購買。

溝通

數據可視化用於在分析數據後幫助了解結果。

一旦分析了數據,就可以向分析用戶以多種格式報告以支持其要求。用戶可能會有反饋,從而導致其他分析。因此,大部分分析週期都是迭代的。

在確定如何傳達結果時,分析師可以考慮實施各種數據可視化技術,以幫助更清晰有效地傳達信息。數據可視化使用信息顯示(圖形,表和圖表)來幫助傳達數據中包含的關鍵消息。是通過啟用用戶查詢和專注於特定數字的能力來獲得的有價值工具;雖然圖表(例如,條形圖或行圖)可能有助於解釋數據中包含的定量消息。

定量消息

一個時間序列顯示了一條線圖,展示了美國聯邦支出和隨著時間的收入的趨勢。
一個散點圖說明了在時間點測得的兩個變量(通貨膨脹和失業)之間的相關性。

斯蒂芬很少有人描述了八種類型的定量消息,用戶可能會嘗試從一組數據以及用於幫助傳達消息的相關圖中理解或傳達。指定要求的客戶和執行數據分析的分析師可以在過程中考慮這些消息。

  1. 時間序列:在一段時間內捕獲一個變量,例如10年內的失業率。可以使用線路圖來證明趨勢。
  2. 排名:分類細分在上升或下降順序中排名,例如銷售績效的排名(量度)(衡量標準)(類別,每個銷售人員在一個時期內)一個分類的分區條形圖可用於顯示整個銷售人員的比較。
  3. 零件到整個:分類細分是作為與整體的比率測量的(即,在100%中佔100%的百分比)。餅圖或條形圖可以顯示比率的比較,例如市場上競爭對手代表的市場份額。
  4. 偏差:與參考的分類細分進行了比較,例如,在給定時間段內的幾個企業部門的實際預算費用和預算支出的比較。條形圖可以顯示實際參考量與參考量的比較。
  5. 頻率分佈:顯示給定間隔的特定變量的觀察次數,例如股票市場回報率在0-10%,11-20%等間隔之間的年數。直方圖,A條形圖的類型可用於此分析。
  6. 相關性:由兩個變量(x,y)表示的觀測值之間的比較,以確定它們傾向於以相同或相反的方向移動。例如,繪製失業(x)和通貨膨脹(y)的樣本。通常將散點圖用於此消息。
  7. 名義比較:以無特定順序比較分類細分,例如乘產品代碼的銷售量。可以將條形圖用於此比較。
  8. 地理或地理空間:在地圖或佈局上進行變量的比較,例如按州按失業率或建築物的各個樓層的人數進行比較。製圖是使用的典型圖形。

分析定量數據的技術

作者喬納森·科梅(Jonathan Koomey)推薦了一系列理解定量數據的最佳實踐。這些包括:

  • 在進行分析之前,請檢查原始數據是否異常;
  • 重新執行重要的計算,例如驗證公式驅動的數據列;
  • 確認主要總數是小計的總和;
  • 檢查應該以可預測方式相關的數字之間的關係,例如隨著時間的推移比率;
  • 將數字歸一化以使比較更容易,例如分析每人的數量或相對於GDP的數量或相對於基準年的指數值;
  • 通過分析導致結果的因素,例如杜邦對股本回報率分析,將問題分解為組件部分。

對於正在檢查的變量,分析師通常會為其獲得描述性統計數據,例如平均值(平均),中值標準偏差。他們還可以分析關鍵變量的分佈,以查看單個值如何圍繞平均值群體。

用於數據分析的MECE原理的例證。

麥肯錫公司和公司的顧問命名了一種技術,該技術將定量問題分解為其組成部分,稱為MECE原則。每一層都可以分解為其組件;每個子組件都必須互相排除,並統稱為上方的層。該關係被稱為“相互排斥和詳盡的”或MECE。例如,按定義劃分的利潤可以分為總收入和總成本。反過來,總收入可以通過其組成部分進行分析,例如A,B和C部門的收入(彼此相互排除),並應增加總收入(統稱詳盡)。

分析師可以使用強大的統計測量來解決某些分析問題。當分析師提出有關真實狀態的特定假設並收集數據以確定事務狀態是正確還是錯誤時,使用假設檢驗。例如,假設可能是“失業對通貨膨脹沒有影響”,這與稱為菲利普斯曲線的經濟學概念有關。假設檢驗涉及考慮I型和II型錯誤的可能性,這與數據是否支持接受或拒絕假設有關。

當分析師試圖確定獨立變量x影響因變量y時,可以使用回歸分析(例如,失業率(x)影響到通貨膨脹率(y)的程度在多大程度上發生變化?”)。這是試圖建模或擬合方程線或曲線到數據的嘗試,因此y是x的函數。

當分析師試圖確定自變量X允許變量y的程度時,可以使用必要條件分析(NCA)(NCA)(例如,“在多大程度上有一定的失業率(x)是一定的通貨膨脹率(y )所需的一定程度(x) ?”)。儘管(多個)回歸分析使用添加邏輯,每個X變量可以產生結果,而X可以相互補償(它們足夠但不必要),而必要的條件分析(NCA)使用必要邏輯,其中一個或多個X - 變量允許結果存在,但可能不會產生結果(它們是必要的,但不夠)。每個必要的條件都必須存在,並且不可能獲得補償。

數據用戶的分析活動

用戶可能在數據集中具有特定的數據點,而不是上面概述的一般消息傳遞。下表列出了這樣的低級用戶分析活動。分類學也可以通過三個活動來組織:檢索值,查找數據點和安排數據點。

# 任務 一般的
描述
Pro Forma
抽象的
例子
1 檢索值 給定一組特定情況,請找到這些情況的屬性。 在數據案例{a,b,c,...}中,屬性{x,y,z,...}的值是什麼? - 福特·蒙迪奧(Ford Mondeo)每加侖的里程是多少?

- 電影隨風走了多長時間?

2 篩選 給定一些關於屬性值的具體條件,請找到滿足這些條件的數據案例。 哪些數據案例滿足條件{a,b,c ...}? - 哪些Kellogg的穀物具有高纖維?

- 哪些喜劇贏得了獎項?

- 哪些資金表現不佳SP-500?

3 計算派生值 給定一組數據案例,請計算這些數據案例的匯總數字表示。 聚集函數f的值與給定的數據案例集的值是什麼? - 穀物後的平均卡路里含量是多少?

- 所有商店的總收入是多少?

- 有多少汽車製造商?

4 找到極值 查找具有屬性在數據集中範圍內具有極高值的數據案例。 關於屬性A的頂部/底部N數據案例是什麼? - MPG最高的汽車是什麼?

- 哪個導演/電影贏得了最多的獎項?

- 哪些Marvel Studios電影的最新發行日期?

5 種類 給定一組數據案例,請根據一些序數度量進行對。 一組數據案例的屬性值A的排序順序是什麼? - 按重量訂購汽車。

- 按卡路里排名穀物。

6 確定範圍 給定一組數據案例和感興趣的屬性,請在集合中找到值的跨度。 一組數據案例中屬性A的值範圍是多少? - 電影長度的範圍是多少?

- 汽車能力的範圍是什麼?

- 數據集中有哪些女演員?

7 表徵分佈 給定一組數據案例和感興趣的定量屬性,可以表徵該屬性值在集合上的分佈。 一組數據案例中屬性a的值的分佈是什麼? - 穀物中碳水化合物的分佈是多少?

- 購物者的年齡分配是多少?

8 找到異常 就給定的關係或期望(例如統計異常值)確定一組數據案例中的任何異常。 一組數據案例中的哪些數據案例具有出乎意料的/特殊值? - 馬力與加速度之間的關係有例外嗎?

- 蛋白質中有異常值嗎?

9 給定一組數據案例,找到類似屬性值的群集。 一組數據案例中的哪些數據案例的屬性值相似{x,y,z,...}? - 是否有類似脂肪/卡路里/糖的穀物組?

- 是否有典型的膠片長度?

10 相關 給定一組數據案例和兩個屬性,請確定這些屬性值之間的有用關係。 在給定的一組數據案例上,屬性x和y之間的相關性是什麼? - 碳水化合物和脂肪之間是否存在相關性?

- 原籍國與MPG之間有關聯嗎?

- 不同的性別有首選的付款方式嗎?

- 多年來有薄膜長度增加的趨勢嗎?

11 上下文化 給定一組數據案例,請找到與用戶的數據相關性。 一組數據案例中的哪些數據案例與當前用戶的上下文相關? - 是否有基於我目前的熱量攝入量的餐館店裡有食物?

有效分析的障礙

進行數據分析或受眾之間的分析師之間可能存在有效分析的障礙。區分事實和意見,認知偏見和無限制都是聲音數據分析的挑戰。

令人困惑的事實和意見

您有權發表自己的意見,但您無權獲得自己的事實。

丹尼爾·帕特里克·莫伊尼漢(Daniel Patrick Moynihan)

有效的分析需要獲得相關事實來回答問題,支持結論或正式意見或檢驗假設。根據定義,事實是無可辯駁的,這意味著任何參與分析的人都應該能夠就它們達成共識。例如,2010年8月,國會預算辦公室(CBO)估計,在2011 - 2020年期間延長2001年和2003年的灌木叢減稅,將為國家債務增加約3.3萬億美元。每個人都應該能夠同意,這確實是CBO報告的;他們都可以檢查報告。這使它成為事實。人們是否同意或不同意CBO是他們自己的意見。

作為另一個例子,上市公司的審計師必須就公開交易公司的財務報表是否“在所有物質方面都相當陳述”發表正式意見。這需要對事實數據和證據進行廣泛分析,以支持其意見。當從事實轉向觀點時,總有可能是錯誤的

認知偏差

有多種認知偏見會對分析產生不利影響。例如,確認偏差是以確認一個人的先入為主的方式搜索或解釋信息的趨勢。此外,個人可能會抹黑不支持其觀點的信息。

可以專門培訓分析師,以了解這些偏見以及如何克服它們。退休的中央情報局分析師理查茲·赫爾(Richards Heuer)在他的情報分析心理學書籍中寫道,分析師應清楚地描述他們的推理的假設和鏈條,並指定結論中涉及的不確定性的程度和來源。他強調了幫助浮出水面和辯論替代觀點的程序。

無數

有效的分析師通常具有多種數值技術。但是,觀眾可能沒有數字或算術的素養。據說他們是巨大的。傳達數據的人也可能試圖誤導或誤解信息,故意使用不良數值技術。

例如,數字是上升還是下降可能不是關鍵因素。更重要的是,相對於其他數字的數量,例如政府收入的規模或支出相對於經濟規模(GDP)或相對於公司財務報表收入的成本數量。該數值技術稱為歸一化或通用大小。分析師採用了許多這樣的技術,無論是調整通貨膨脹(即,比較實際數據與名義數據)還是考慮人口增加,人口統計等。分析師應用了多種技術來解決上述部分所述的各種定量資訊.

分析師還可以在不同的假設或場景下分析數據。例如,當分析師執行財務報表分析時,他們通常會根據不同假設下的財務報表來幫助得出未來現金流的估計,然後他們根據某些利率來折扣為現金,以確定該價值公司或其股票。同樣,CBO分析了各種政策選擇對政府收入,支出和赤字的影響,從而為關鍵措施創造了替代的未來情況。

其他主題

智能建築

可以使用數據分析方法來預測建築物中的能源消耗。為了實現智能建築,進行了數據分析過程的不同步驟,其中建築物管理和控制操作在內,包括供暖,通風,空調,照明和安全性可以自動通過模擬建築物用戶的需求並優化資源來自動實現喜歡能量和時間。

分析和商業智能

分析是“廣泛使用數據,統計和定量分析,解釋性和預測模型以及基於事實的管理,以推動決策和行動”。它是商業智能的子集,它是一組技術和流程,使用數據來理解和分析業務績效以推動決策。

教育

數據可視化用戶的分析活動

教育中,大多數教育工作者都可以訪問數據系統,以分析學生數據。這些數據系統以非處方數據格式(嵌入標籤,補充文檔和幫助系統以及做出關鍵軟件包/顯示和內容決策)以提高教育工作者數據分析的準確性。

從業者註意

本節包含相當相當的技術解釋,可以幫助從業者,但超出了Wikipedia文章的典型範圍。

初始數據分析

初始數據分析階段和主要分析階段之間最重要的區別是,在初始數據分析中,一個旨在回答原始研究問題的分析中避免了任何分析。初始數據分析階段由以下四個問題指導:

數據質量

數據的質量應儘早檢查。可以使用不同類型的分析來以幾種方式評估數據質量:頻率計數,描述性統計(平均值,標準偏差,中位數),正態性(偏度,峰度,峰值,頻率直方圖),需要正常的插補

  • 極端觀察的分析:分析數據中的外圍觀察結果,以查看它們是否干擾了分佈。
  • 比較和糾正編碼方案的差異:將變量與數據集外部變量的編碼方案進行比較,如果編碼方案不可比較,則可能會糾正。
  • 測試共同方法方差

在初始數據分析階段評估數據質量的分析的選擇取決於將在主要分析階段進行的分析。

測量質量

僅在最初的數據分析階段,當這不是研究的重點或研究問題時,應在初始數據分析階段檢查測量工具的質量。應該檢查測量儀器的結構是否與文獻報導的結構相對應。

有兩種評估測量質量的方法:

  • 驗證性因素分析
  • 分析同質性(內部一致性),這表明了測量工具的可靠性。在此分析過程中,人們檢查項目和秤的差異,量表的cronbach'sα以及Cronbach alpha的變化,當項目從秤中刪除時

初始轉換

在評估數據的質量和測量質量之後,人們可能會決定將丟失的數據歸為丟失,或者對一個或多個變量進行初始轉換,儘管這也可以在主分析階段進行。
變量的可能轉換為:

  • 平方根變換(如果分佈與正常情況適度不同)
  • 對數轉換(如果分佈與正常有很大差異)
  • 逆變換(如果分佈與正常明顯不同)
  • 進行分類(序數 /二分法)(如果分佈與正常情況大不相同,並且沒有任何轉化有幫助)

研究的實施是否滿足了研究設計的意圖?

應該通過檢查背景和實質變量是否在組內和跨組中是否平均分佈來檢查隨機化過程的成功。
如果研究不需要或使用隨機過程,則應通過檢查樣本中是否表示關注人群的所有亞組來檢查非隨機抽樣的成功。
應檢查的其他可能的數據扭曲是:

  • 輟學(應在初始數據分析階段確定這一點)
  • 項目無響應(是否應在最初的數據分析階段評估這是隨機的)
  • 治療質量(使用操縱檢查)。

數據樣本的特徵

在任何報告或文章中,必須準確描述樣品的結構。當將在主要分析階段進行亞組分析時,精確確定樣品的結構(特別是亞組的大小)。
數據樣本的特徵可以通過查看:

  • 重要變量的基本統計數據
  • 散點圖
  • 相關和關聯
  • 跨票

初始數據分析的最後階段

在最後階段,記錄了初始數據分析的發現,並採取必要,優选和可能的糾正措施。
同樣,主要數據分析的原始計劃可以並且應該更詳細地指定或重寫。
為了做到這一點,可以並且應該做有關主要數據分析的幾項決定:

  • 在非正常的情況下:一個應該轉換變量;使變量分類(序數/二分法);適應分析方法?
  • 對於缺少數據的情況:應該忽略或算作丟失的數據;應該使用哪種插補技術?
  • 異常值的情況下:應該使用強大的分析技術嗎?
  • 如果項目不符合規模:是否應該通過省略項目來調整測量工具,或者確保與其他(使用)測量儀器的可比性?
  • 對於(也是)小群:應該刪除有關組間差異的假設,還是使用小樣本技術,例如精確的測試或自舉試驗
  • 如果隨機過程似乎有缺陷:一個人可以而且應該計算傾向得分並將其作為協變量包括在主要分析中嗎?

分析

在初始數據分析階段可以使用幾種分析:

  • 單變量統計(單變量)
  • 雙變量關聯(相關)
  • 圖形技術(散點圖)

重要的是要考慮分析的變量的測量水平,因為每個級別都可以使用特殊的統計技術:

  • 標稱和序數變量
    • 頻率計數(數字和百分比)
    • 協會
      • 繞行(串聯)
      • 分層loglinear Analysis(僅限於8個變量)
      • loglinear分析(確定相關/重要變量和可能的混雜因素)
    • 確切的測試或自舉(如果亞組很小)
    • 新變量的計算
  • 連續變量
    • 分配
      • 統計數據(M,SD,方差,偏度,峰度)
      • 莖和葉片顯示
      • 盒子圖

非線性分析

非線性系統記錄數據時,通常需要進行非線性分析。非線性系統可以表現出複雜的動態效應,包括無法使用簡單的線性方法分析的分叉混亂諧波亞肝素。非線性數據分析與非線性系統識別密切相關。

主要數據分析

在主要分析階段,進行了旨在回答研究問題的分析以及撰寫研究報告初稿所需的任何其他相關分析。

探索性和確認方法

在主要分析階段,可以採用探索性或確認方法。通常,該方法是在收集數據之前決定的。在探索性分析中,在分析數據之前沒有明確的假設,並蒐索數據可以很好地描述數據。在確認性分析中,對數據的明確假設進行了測試。

探索性數據分析應仔細解釋。一次測試多個模型時,很有可能發現其中一個很重要,但這可能是由於1型誤差所致。在測試多個模型的情況下,例如Bonferroni校正,始終調整顯著性水平。另外,不應在同一數據集中對驗證性分析進行探索性分析。探索性分析用於找到理論的想法,但也不是為了檢驗該理論。當在數據集中找到探索性探索性時,然後在同一數據集中進行驗證性分析跟踪該分析可能只是意味著確認性分析的結果是由於相同的類型1誤差引起的,該錯誤在第一個中導致了探索模型地方。因此,確認性分析不會比原始探索性分析更具信息性。

結果的穩定性

重要的是要了解結果的概括程度。儘管這通常很難檢查,但可以查看結果的穩定性。結果可靠且可再現嗎?有兩種主要方法。

  • 交叉驗證。通過將數據分為多個部分,我們可以根據數據的一個部分也將數據(例如擬合模型)進行檢查是否也將數據推廣到數據的另一部分。但是,如果數據中存在相關性,例如與面板數據有相關性,則交叉驗證通常是不合適的。因此,有時需要使用其他驗證方法。有關此主題的更多信息,請參見統計模型驗證
  • 敏感性分析。當全局參數(系統地)變化時,研究系統或模型的行為的過程。一種方法是通過自舉

數據分析的免費軟件

可用於數據分析的著名免費軟件包括:

  • Devinfo -聯合國發展小組認可的數據庫系統,用於監測和分析人類發展。
  • ELKI - Java中的數據挖掘框架,具有以數據挖掘為導向的可視化功能。
  • Knime - Konstanz Information Miner,一個用戶友好和全面的數據分析框架。
  • 橙色- 一種視覺編程工具,具有交互式數據可視化和用於統計數據分析,數據挖掘機器學習的方法。
  • Pandas - Python庫用於數據分析。
  • PAW - CERN開發的Fortran/C數據分析框架。
  • R - 用於統計計算和圖形的編程語言和軟件環境。
  • - C ++數據分析框架在CERN開發。
  • Scipy - 用於數據分析的Python庫。
  • 朱莉婭(Julia) - 一種非常適合數值分析和計算科學的編程語言。

國際數據分析競賽

不同的公司或組織舉行數據分析競賽,以鼓勵研究人員利用其數據或使用數據分析解決特定問題。著名國際數據分析競賽的一些例子如下:

也可以看看