模式識別

模式識別是根據從數據中提取的模式將分配給觀察值的任務。儘管類似,但模式識別(PR)不應與可能具有(PR)功能的模式機(PM)混淆,但其主要功能是區分和創建新興模式。 PR在統計數據分析信號處理圖像分析信息檢索生物信息學數據壓縮計算機圖形機器學習中具有應用。模式識別起源於統計和工程;一些現代的模式識別方法包括使用機器學習,這是因為大數據的可用性增加和新的豐富處理能力

圖案識別系統通常是通過標記為“訓練”數據的訓練。當沒有標記的數據可用時,可以使用其他算法來發現以前未知的模式。 KDD和數據挖掘更加重視無監督的方法和與業務使用的更牢固的聯繫。模式識別更多地關注信號,還考慮了採集和信號處理。它起源於工程,該術語在計算機視覺的背景下很受歡迎:領先的計算機視覺會議被命名為有關計算機視覺和模式識別的會議

機器學習中,模式識別是將標籤分配給給定輸入值。在統計數據中,在1936年出於相同的目的進行了判別分析。模式識別的一個示例是分類,該分類試圖將每個輸入值分配給給定的一組之一(例如,確定給定的電子郵件是否為“垃圾郵件” )。模式識別是一個更普遍的問題,它也包括其他類型的輸出。其他示例是回歸,該回歸為每個輸入分配了實用值的輸出;序列標記,該標記將一個類分配給一個值序列的每個成員(例如,語音標記的一部分,將語音的一部分分配給輸入句子中的每個單詞);和解析,將解析樹分配給輸入句子,描述了句子的句法結構

圖案識別算法通常旨在為所有可能的輸入提供合理的答案,並考慮到其統計變化,對輸入進行“最有可能”匹配。這與模式匹配算法相反,該算法在輸入中查找具有預先存在模式的精確匹配。模式匹配算法的一個常見示例是正則表達式匹配,它在文本數據中尋找給定類型的模式,並包含在許多文本編輯器文字處理器的搜索功能中。

概述

模式識別的現代定義是:

模式識別領域與通過使用計算機算法的使用以及使用這些規律性來自動發現數據規律性,以採取諸如將數據分類為不同類別的操作。

通常根據用於生成輸出值的學習過程的類型對模式識別進行分類。監督的學習假設已經提供了一組培訓數據(培訓集),包括一組實例,這些實例已與正確的輸出正確標記。然後,學習過程生成了一個模型,該模型試圖實現兩個有時相互矛盾的目標:在培訓數據上盡可能地執行,並儘可能概括到新數據(通常,這意味著盡可能簡單,對於某些技術定義,根據Occam的剃須刀的“簡單”,下面討論了)。另一方面,無監督的學習假定尚未手工標記的培訓數據,並試圖在數據中找到固有的模式,然後可以使用這些模式來確定新數據實例的正確輸出值。已探索的兩個組合的組合是半監督的學習,該學習結合了標記和未標記的數據(通常是一小部分標記的數據,並結合了大量未標記的數據)。在無監督學習的情況下,可能根本沒有培訓數據。

有時,不同的術語用於描述相同類型的輸出的相應監督和無監督的學習程序。基於對任務的共同看法,無需涉及培訓數據,並根據某些固有的相似性措施將輸入數據分組群集(例如實例之間的距離,因此被認為是考慮到群集的,因此無監督的分類等效物通常稱為聚類。作為多維矢量空間中的向量),而不是將每個輸入實例分配為一組預定義的類之一。在某些領域,術語是不同的。在社區生態學中,該術語分類用於指通常稱為“聚類”。

生成輸出值的輸入數據正式稱為實例。該實例由特徵向量正式描述,該實例共同構成了該實例的所有已知特徵的描述。這些特徵向量可以看作是在適當的多維空間中的定義點,並且可以相應地應用在矢量空間中處理向量的方法,例如計算點乘積或兩個向量之間的角度。特徵通常是分類的(也稱為名義,即,由一組無序項目之一組成,例如“男性”或“女性”的性別,或者是“ a”,“ a”,“ b”,“”的血液類型AB”或“ O”),序數(由一組有序項目之一組成,例如,“大”,“中”或“小”),整數值(例如,A的發生數量電子郵件中的特定單詞)或實用值(例如,血壓的測量)。通常,分類和序數數據被分組在一起,整數價值和實值數據也是如此。許多算法僅在分類數據方面起作用,並要求將實價或整數值數據離散為組(例如,小於5,5到10,或大於10)。

概率分類器

許多常見的模式識別算法本質上是概率的,因為它們使用統計推斷為給定實例找到最佳標籤。與僅輸出“最佳”標籤的其他算法不同,通常概率算法也輸出了給定標籤所描述的實例的概率。此外,許多概率算法輸出了具有關聯概率的n個最佳標籤的列表,而不僅僅是單個最佳標籤。如果可能的標籤數量相當小(例如,在分類的情況下),則可以設置N ,以便輸出所有可能的標籤的概率。概率算法比非穩態算法具有許多優勢:

  • 他們輸出了與他們選擇相關的置信價值。 (請注意,某些其他算法也可能會輸出置信值,但通常,對於概率算法,僅在數學上以概率理論為基礎。非穩定置信值通常不能給出任何特定含義,並且僅用於與反對反對的含義其他置信值以相同的算法輸出。)
  • 相應地,當選擇任何特定輸出的信心太低時,它們可以棄權
  • 由於概率輸出,概率模式識別算法可以更有效地納入較大的機器學習任務中,以部分或完全避免錯誤傳播問題。

重要特徵變量的數量

特徵選擇算法試圖直接修剪冗餘或無關的特徵。提出了總結方法和挑戰的特徵選擇的一般介紹。特徵選擇的複雜性是由於其非單調特徵,這是一個優化問題,其中總計功能集由所有功能組成需要探索功能子集。分支結合的算法確實降低了這種複雜性,但對於中等至大量的可用功能數量很棘手

在應用模式匹配算法之前,有時會使用轉換原始特徵向量的技術(特徵提取)。特徵提取算法試圖使用數學技術(例如主成分分析(PCA)),將大差異特徵向量減少到較小的維度向量中,並且更易於使用並編碼較小的冗餘。特徵選擇特徵提取之間的區別在於,出現特徵提取後的結果特徵與原始功能不同,並且可能不容易解釋,而功能選擇後剩下的功能只是原始功能的一個子集。

問題陳述

模式識別問題可以說如下:給定一個未知功能地面真相)映射輸入實例輸出標籤 ,以及培訓數據假定代表映射的準確示例,產生函數盡可能接近正確的映射 。 (例如,如果問題是要過濾垃圾郵件,則是一封電子郵件的某些代表是“垃圾郵件”或“非垃圾郵件”)。為了使這是一個定義明確的問題,需要嚴格定義“盡可能接近近似值”。在決策理論中,這是通過指定損失函數或成本函數來定義的,該損失函數或成本函數將特定值分配給產生不正確標籤而導致的“損失”。然後,目標是最大程度地減少預期損失,而期望超過了概率分佈 。實際上,分佈也沒有地面真相功能確切地知道,但只能通過收集大量樣本的經驗來計算並使用正確的值 (這是一個耗時的過程,這通常是可以收集的數據的限制因素)。特定的損失函數取決於預測的標籤類型。例如,在分類的情況下,簡單的零損失函數通常就足夠了。這僅僅是為任何不正確的標籤分配1的損失,這意味著最佳分類器將獨立測試數據的錯誤率最小錯誤的標籤,這等效於最大化正確分類的實例的數量)。然後,學習過程的目標是最大程度地減少“典型”測試集上的錯誤率(最大化正確性)。

對於概率模式識別器,問題是要估計給定特定輸入實例的每個可能輸出標籤的概率,即估算形式的函數

功能向量輸入的位置 ,並且函數f通常通過某些參數進行參數化 。在解決該問題的歧視方法中, F直接估算了F。但是,在生成方法中,反概率相反,被估計並與先驗概率合併使用貝葉斯規則,如下:

當標籤連續分佈(例如,在回歸分析中)時,分母涉及集成而不是求和:

的價值通常使用最大後驗(MAP)估計來學習。這發現了同時符合兩個衝突對象的最佳價值:在訓練數據(最小的誤差率)上盡可能執行並找到最簡單的模型。從本質上講,這將最大似然估計與正規化程序結合在一起,該過程有利於更簡單的模型而不是更複雜的模型。在貝葉斯的情況下,正規化過程可以看作是提前概率在不同的值 。數學上:

在哪裡是用於在隨後的評估程序中, 後部概率 , 是(誰)給的

在解決此問題的貝葉斯方法中,而不是選擇單個參數向量 ,新實例給定標籤的概率通過整合所有可能的值 ,根據後概率加權:

常見主義者或貝葉斯的模式識別方法

第一個模式分類器 -費舍爾提出的線性判別 - 是在頻繁的傳統中開發的。頻繁的方法需要將模型參數視為未知,但客觀。然後,根據收集的數據計算(估計)參數。對於線性判別,這些參數恰恰是平均向量和協方差矩陣。也是每個班級的概率從收集的數據集估算。請注意,“貝葉斯規則”在模式分類器中的使用並不能使分類方法貝葉斯。

貝葉斯統計數據起源於希臘哲學,在希臘哲學上,已經在“先驗”和“後驗”知識之間進行了區別。後來,康德(Kant)定義了他在觀察之前的先驗知識和從觀察中獲得的經驗知識的區別。在貝葉斯模式分類器中,類概率可以由用戶選擇,然後是先驗的。此外,可以使用經驗觀察來加權被量化為先驗參數值的經驗 - 使用例如beta-共軛先驗)和dirichlet-Distribition 。貝葉斯方法以主觀概率的形式和客觀觀察的形式促進了專家知識之間的無縫相互結合。

概率模式分類器可以根據常見主義者或貝葉斯方法使用。

用途

特殊軟件自動檢測到面部

在醫學中,模式識別是計算機輔助診斷(CAD)系統的基礎。 CAD描述了一個支持醫生的解釋和發現的程序。模式識別技術的其他典型應用包括自動語音識別說話者識別文本分類為多個類別(例如,垃圾郵件或非垃圾郵件電子郵件),自動識別郵政信封上的手寫,自動識別人類面孔的圖像,或從醫學表格中提取手寫圖像。最後兩個示例構成了模式識別的亞主題圖像分析,該圖像識別將數字圖像作為模式識別系統的輸入。

光學特徵識別是模式分類器應用的一個示例。從1990年開始,用手寫筆和覆蓋層捕獲了簽名名稱的方法。筆觸,速度,相對最小,相對最大,加速度和壓力用於唯一識別並確認身份。銀行首先提供了這項技術,但很滿足於從FDIC收集任何銀行​​欺詐行為,並且不想給客戶帶來不便。

模式識別在圖像處理中具有許多現實世界應用。一些示例包括:

在心理學中,模式識別用於理解和識別對象,並且與感知密切相關。這解釋了人類收到的感官輸入是有意義的。可以通過兩種不同的方式來考慮模式識別。第一個涉及模板匹配和第二個問題特徵檢測。模板是一種用於生成相同比例的項目的模式。模板匹配假設表明,將傳入的刺激與長期記憶中的模板進行了比較。如果有匹配,則識別刺激。特徵檢測模型,例如用於分類字母的pandemonium系統(Selfridge,1959年),表明刺激被分解為其組成部分以供識別。一個觀察結果是具有三個水平線和一條垂直線的資本E。

演算法

用於模式識別的算法取決於標籤輸出的類型,學習是監督還是無監督,以及該算法本質上是統計的還是非統計的。統計算法可以進一步歸類為生成性歧視性

分類方法(預測分類標籤的方法)

參數:

非參數:

聚類方法(用於分類和預測分類標籤的方法)

集合學習算法(將多個學習算法組合在一起的有監督的元詞素)

預測任意結構(集)標籤的一般方法

多連接子空間學習算法(使用張量表示的多維數據的標籤)

無監督:

實值序列標記方法(預測實價標籤的序列)

回歸方法(預測實價標籤)

序列標記方法(預測分類標籤的序列)

也可以看看