機器學習

機器學習ML )是與統計算法的開發和研究有關的人工智能研究領域,這些算法可以從數據中學習並推廣到看不見的數據,因此在沒有明確指令的情況下執行任務。最近,生成的人工神經網絡已經能夠超過許多以前的性能方法。儘管機器學習算法在各種任務上表現出了出色的性能,但它們容易遺傳和放大培訓數據中存在的偏見。這可能體現在偏斜的表示或對不同人口統計學的不公平對待中,例如基於種族,性別,語言和文化群體的人口統計學。

機器學習方法已應用於大型語言模型計算機視覺語音識別電子郵件過濾農業和醫學,在那裡開發算法無法執行所需的任務太昂貴。 ML在其跨業務問題的應用中以“預測分析”為名。儘管並非所有機器學習都是基於統計學的,但計算統計是該領域方法的重要來源。

ML的數學基礎是通過數學優化(數學編程)方法提供的。數據挖掘是一個相關的(平行)研究領域,重點是通過無監督的學習進行探索性數據分析。從理論的角度來看,大概是正確的學習提供了描述機器學習的框架。

歷史和與其他領域的關係

機器學習一詞是1959年由IBM員工兼計算機遊戲人工智能領域的先驅Arthur Samuel創造的。同義詞自學計算機也在這段時間內使用。

儘管最早的機器學習模型是在1950年代引入的,當時亞瑟·塞繆爾(Arthur Samuel)發明了一項計劃,該計劃計算了每一側的棋子的獲勝機會,但機器學習的歷史可以追溯到人類的渴望和研究人類認知過程的數十年。 1949年,加拿大心理學家唐納德·赫布(Donald Hebb)發表了《行為組織》一書,其中他引入了神經細胞之間某些相互作用形成的理論神經結構。 HEBB的神經元模型彼此相互作用為AIS和機器學習算法如何在節點下工作,或計算機用於傳達數據的人工神經元的基礎。其他研究人類認知系統的研究人員也有助於現代機器學習技術,包括邏輯學家沃爾特·皮茨(Walter Pitts)和沃倫·麥卡洛克(Warren McCulloch) ,他們提出了神經網絡的早期數學模型,以提出反映人類思維過程的算法。

到1960年代初期,雷神公司(Raytheon Company)開發了一款帶有磁帶記憶的實驗性“學習機”,稱為Cyber​​tron,以使用基本的強化學習來分析聲納信號,心電圖和語音模式。它是由人類操作員/老師重複“訓練”的,以識別模式並配備了“愚蠢”按鈕,以使其重新評估錯誤的決定。關於1960年代機器學習研究的代表性書是尼爾森(Nilsson)關於學習機器的書,主要涉及用於模式分類的機器學習。正如Duda和Hart在1973年所描述的那樣,與模式認可有關的興趣一直持續到19703年。1981年,一份有關使用教學策略的報告,以便神經網絡學會識別40個字符(26個字母,10位數字和4個特殊符號)來自計算機終端。

湯姆· M·米切爾(Tom M. M.t中,如p所測量的,經驗有所改善。”有關機器學習涉及的任務的定義提供了從根本上運行的定義,而不是用認知術語來定義該領域。這是艾倫·圖靈(Alan Turing)在他的論文“計算機和智能”中提出的提議,其中“機器可以認為?”的問題是問題。被替換為“機器可以做我們(作為思考實體)可以做的事情?”的問題。

現代機器學習有兩個目標,一個是根據開發的模型對數據進行分類,另一個目的是根據這些模型對未來結果進行預測。針對分類數據的假設算法可能會使用摩爾的計算機視覺以及監督學習,以對其進行訓練以對癌變摩爾分類。用於股票交易的機器學習算法可能會告知交易者未來的潛在預測。

人工智慧

機器學習為AI的子場

作為一項科學的努力,機器學習是從人工智能(AI)的追求中發展而來的。在AI的早期,一些研究人員有興趣讓機器從數據中學習。他們試圖通過各種符號方法以及然後被稱為“神經網絡”來解決問題。這些主要是感知的其他模型,後來被發現是統計的廣義線性模型的重塑。還採用了概率推理,尤其是在自動化醫學診斷中。

但是,越來越強調基於知識的方法,引起了AI和機器學習之間的裂痕。概率系統受到數據獲取和表示的理論和實際問題的困擾。到1980年,專家系統已經統治了AI,統計數據不受歡迎。基於符號/知識的學習的工作確實在AI中繼續進行,從而導致了歸納邏輯編程,但是在模式識別信息檢索方面,更統計的研究線現在已經超出了AI適當的領域。大約在同一時間,AI和計算機科學拋棄了神經網絡研究。這條線也是在AI/CS領域之外的“聯繫”,包括HopfieldRumelhartHinton等其他學科的研究人員。他們的主要成功是在1980年代中期,隨著反向傳播的重塑。

機器學習(ML)重組並被公認為自己的領域,並於1990年代開始蓬勃發展。該領域將其目標從實現人工智能轉變為解決實用性的可解決問題。它使重點從AI繼承的符號方法轉移到了從統計,模糊邏輯概率理論中藉來的方法和模型。

數據挖掘

機器學習和數據挖掘通常採用相同的方法並顯著重疊,但是儘管機器學習重點是預測,但基於從培訓數據中學到的已知屬性,數據挖掘的重點是發現數據中(以前)未知屬性(這是)數據庫中知識發現的分析步驟)。數據挖掘使用許多機器學習方法,但具有不同的目標;另一方面,機器學習還採用數據挖掘方法作為“無監督的學習”或作為提高學習者準確性的預處理步驟。這兩個研究社區之間的大部分混亂(通常有獨立的會議和單獨的期刊, ECML PKDD是一個主要例外)都來自他們使用的基本假設:在機器學習中,通常對性能進行評估,以評估重現已知知識,而在知識發現和數據挖掘(KDD)中,關鍵任務是發現以前未知的知識。根據已知知識的評估,一種無知(無監督)的方法將很容易被其他監督方法勝過,而在典型的KDD任務中,由於訓練數據的不可用而無法使用監督方法。

機器學習還與優化有親密的聯繫:許多學習問題被提出,因為在訓練示例中最小化某些損失功能。損失函數表達了訓練模型的預測與實際問題實例之間的差異(例如,在分類中,人們希望將標籤分配給實例,並訓練模型以正確預測一組預分配的標籤例子)。

概括

優化和機器學習之間的差異來自概括的目標:雖然優化算法可以最大程度地減少訓練集的損失,但機器學習與最大程度地減少了看不見的樣本的損失有關。表徵各種學習算法的概括是當前研究的一個積極主題,尤其是對於深度學習算法。

統計數據

機器學習和統計數據在方法方面是密切相關的領域,但其主要目標是不同的:統計數據從樣本中汲取了人口推斷,而機器學習發現了可概括的預測模式。根據邁克爾·喬丹(Michael I.他還建議將數據科學一詞作為佔位符,以稱呼整個領域。

常規統計分析需要先驗選擇最適合研究數據集的模型。此外,僅包括基於先前經驗的顯著或理論上相關的變量進行分析。相比之下,機器學習不是建立在預製模型上的。相反,數據通過檢測基本模式來塑造模型。用於訓練模型的變量(輸入)越多,最終模型將越準確。

Leo Breiman區分了兩個統計建模範例:數據模型和算法模型,其中“算法模型”或多或少是指機器學習算法(如隨機森林)

一些統計學家從機器學習中採用了方法,從而導致了他們稱為統計學習的組合領域。

物理

從無序系統的深度物理學中得出的分析和計算技術可以擴展到大規模問題,包括機器學習,例如,分析深神經網絡的重量空間。因此,統計物理學在醫學診斷領域找到了應用。

理論

學習者的核心目標是從其經驗中概括。在這種情況下,在這種情況下的概括是學習機器在經歷了學習數據集後準確執行新的,看不見的示例/任務的能力。培訓示例來自一些通常未知的概率分佈(認為代表事件空間的代表),學習者必須建立有關該空間的一般模型,使其能夠在新情況下產生足夠準確的預測。

機器學習算法及其性能的計算分析是理論計算機科學的一個分支,即通過近似正確的學習(PAC)模型被稱為計算學習理論。由於培訓集是有限的,未來是不確定的,因此學習理論通常無法獲得算法性能的保證。相反,性能的概率界限很普遍。偏差 - 變化分解是量化概括誤差的一種方法。

為了在概括中的最佳性能,假設的複雜性應與數據基礎函數的複雜性相匹配。如果假設不如函數複雜,則該模型已在擬合數據下。如果模型的複雜性增加了響應,則訓練誤差會降低。但是,如果假設過於復雜,則該模型會受到過度擬合,概括將更差。

除了績效範圍外,學習理論家還研究學習時間的複雜性和學習的可行性。在計算學習理論中,如果可以在多項式時間內完成計算,則認為該計算是可行的。有兩種時間複雜性結果:陽性結果表明,可以在多項式時間內學習某些類別的功能。負面結果表明,某些類別無法在多項式時間內學習。

方法

機器學習方法傳統上分為三個類別,這些類別與學習範式相對應,具體取決於學習系統可用的“信號”或“反饋”的性質:

  • 監督學習:計算機以示例輸入及其所需的輸出(由“老師”給出)呈現,目標是學習將輸入映射到輸出的一般規則。
  • 無監督的學習:學習算法沒有標籤,使其獨自找到輸入中的結構。無監督的學習本身就是一個目標(在數據中發現隱藏的模式)或邁向終點的手段(功能學習)。
  • 強化學習:計算機程序與動態環境進行互動,在該環境中必須執行某個目標(例如駕駛車輛或與對手玩遊戲)。當它導航其問題空間時,提供了類似於獎勵的反饋,該反饋試圖最大化。儘管每種算法都有優點和局限性,但沒有單個算法適用於所有問題。

監督學習

支持矢量機是一種監督的學習模型,將數據分為由線性邊界分開的區域。在這裡,線性邊界將黑色圓圈與白色劃分。

監督的學習算法構建了一組包含輸入和所需輸出的數據集的數學模型。數據稱為培訓數據,由一組培訓示例組成。每個培訓示例都有一個或多個輸入,所需的輸出也稱為監督信號。在數學模型中,每個訓練示例由數組或向量表示,有時稱為特徵向量,訓練數據由矩陣表示。通過對目標函數迭代優化,監督的學習算法學習了一個可用於預測與新輸入相關的輸出的函數。最佳功能允許算法正確確定不是訓練數據一部分的輸入的輸出。據說一種提高其產出或預測準確性的算法被學會了執行該任務。

監督學習算法的類型包括主動學習分類回歸。當輸出僅限於有限的值集時,使用分類算法,並且當輸出可能在範圍內具有任何數值時,則使用回歸算法。例如,對於過濾電子郵件的分類算法,輸入將是一封傳入的電子郵件,輸出將是文件夾提交電子郵件的文件夾的名稱。

相似性學習是與回歸和分類密切相關的監督機器學習領域,但目的是使用相似性函數從示例中學習,以衡量兩個對象的相似性或相關性。它在排名建議系統,視覺標識跟踪,面部驗證和揚聲器驗證方面具有應用。

無監督的學習

無監督的學習算法在尚未被標記,分類或分類的數據中找到結構。無監督的學習算法沒有回應反饋,而是根據每個新數據中的存在或不存在這種共同點來確定數據中的共同點。無監督的機器學習的中心應用包括聚類,降低性降低密度估計。無監督的學習算法還簡化了從Pan-Genome中識別出感興趣基因的大型基因倍型的過程。

通過大型Indel置換斜率,夾子的聚類將對齊圖像變成學習回歸問題。每對DNA片段之間的各種斜率( b )估計值使得可以識別共享相同集合的indels的段。

群集分析是將一組觀測值分配到子集中(稱為),因此根據一個或多個預先指定的標準,同一群集內的觀測值相似,而從不同簇繪製的觀測值則不同。不同的聚類技術對數據結構做出了不同的假設,通常由某些相似性度量定義,並通過內部緊湊性或同一群集成員之間的相似性和分離群之間的相似性進行評估。其他方法基於估計的密度圖形連接

半監督學習

半監督的學習屬於無監督的學習(沒有任何標記的培訓數據)和監督學習(具有完全標記的培訓數據)之間。一些培訓示例是缺少培訓標籤,但是許多機器學習的研究人員發現,當與少量標記的數據結合使用時,未標記的數據可以在學習準確性方面有了很大的提高。

弱監督的學習中,培訓標籤是嘈雜,有限或不精確的;但是,這些標籤通常更便宜,從而導致更大的有效訓練集。

強化學習

強化學習是機器學習的領域,與軟件代理在環境中應採取的行動,以最大程度地提高累積獎勵的概念。由於其普遍性,該領域在許多其他學科中進行了研究,例如遊戲理論控制理論操作研究信息理論基於模擬的優化多代理系統群智能統計遺傳算法。在強化學習中,環境通常表示為馬爾可夫決策過程(MDP)。許多增援算法使用動態編程技術。強化學習算法不假定MDP的精確數學模型的知識,並且在確切模型不可行時使用。強化學習算法用於自動駕駛汽車或學習與人類對手玩遊戲。

減少維度

降低降低是通過獲得一組主變量來減少所考慮的隨機變量數量的過程。換句話說,這是一個降低功能集的維度的過程,也稱為“功能數量”。大多數維度降低技術都可以視為消除特徵或提取。降低維度的流行方法之一是主成分分析(PCA)。 PCA涉及將高維數據(例如3D)更改為較小的空間(例如2D)。這會導致數據的較小維度(2D而不是3D),同時將所有原始變量保存在模型中而無需更改數據。該歧管假設提出,高維數據集沿低維流,許多維度降低技術使這一假設導致了流形學習歧管正則化的領域。

其他類型

已經開發了其他方法,這些方法並不完全適合這一三倍的分類,有時是由同一機器學習系統使用的。例如,主題建模元學習

自學

自學學習範式在1982年引入了機器學習範式,並具有能夠自學習的神經網絡,稱為Crossbar Adaptive Array (CAA)。它在沒有外部獎勵的情況下學習,也沒有外部教師建議。 CAA的自學算法以橫桿方式計算出有關動作和情感(感受)有關後果情況的決定。該系統是由認知與情感之間的相互作用驅動的。自學習算法更新內存矩陣W = || W(a,s)||因此,在每次迭代中都執行以下機器學習程序:

  1. 在情況下,行動a
  2. 收到後果情況S'
  3. 計算結果的情緒v(s')
  4. 更新Crossbar Memory W'(A,S)= W(A,S) + V(S')

它是一個只有一個輸入,情況,只有一個輸出,動作(或行為)的系統a。既沒有單獨的增強輸入,也沒有來自環境的建議輸入。反向傳播的價值(次要加強)是對後果情況的情感。 CAA存在於兩個環境中,一個是行為行為的行為環境,另一個是遺傳環境,其中最初是從中,只有一次接受有關在行為環境中遇到的情況的初步情緒。從遺傳環境中收到基因組(物種)向量後,CAA在包含理想和不良情況的環境中學習了尋求目標的行為。

功能學習

幾種學習算法旨在發現培訓過程中提供的投入的更好表示。經典示例包括主成分分析和聚類分析。特徵學習算法(也稱為表示算法)經常試圖在其輸入中保留信息,但也以使其有用的方式轉換為有用的,通常是在執行分類或預測之前作為預處理步驟。該技術允許重建來自未知數據生成分佈的輸入,同時不一定忠於該分佈下不可信的配置。這取代了手動功能工程,並允許機器學習功能並使用它們執行特定任務。

功能學習可以受到監督或無監督。在監督功能學習中,使用標記的輸入數據學習了功能。例子包括人工神經網絡多層感知和監督詞典學習。在無監督的特徵學習中,通過未標記的輸入數據學習了功能。示例包括字典學習,獨立組件分析自動編碼器基質分解和各種形式的聚類

流動學習算法試圖在限制的情況下嘗試這樣做。稀疏編碼算法試圖在限制的限制下嘗試這樣做,這意味著數學模型具有許多零。多連接子空間學習算法旨在直接從張量表示多維數據中學習低維表示,而無需將它們重塑為高維矢量。深度學習算法發現了多個級別的表示形式或特徵的層次結構,具有更高級別的,更抽象的特徵,以(或生成)較低級別的特徵定義。有人認為,智能機器是一種學會了一種表示解釋可解釋觀察到數據的變異因素的表示。

特徵學習是由於機器學習任務(例如分類)通常需要在數學和計算上方便處理的輸入而激發的。但是,圖像,視頻和感覺數據等現實世界數據尚未產生算法定義特定特徵的嘗試。一種替代方法是通過檢查發現此類功能或表示形式,而不依賴於明確的算法。

稀疏的詞典學習

稀疏字典學習是一種特徵學習方法,其中訓練示例表示為基礎函數的線性組合,並被認為是稀疏矩陣。該方法是強烈的NP硬化,並且難以求解。 K-SVD算法是稀疏字典學習的一種流行的啟發式方法。稀疏的詞典學習已在多種情況下應用。在分類中,問題是確定以前看不見的訓練示例所在的類。對於已經構建了每個類的詞典,一個新的培訓示例與該類相關聯,該示例最能以相應的詞典表示。稀疏的詞典學習也已用於圖像刪除。關鍵的想法是,乾淨的圖像補丁可以用圖像詞典來稀少,但是噪聲不能。

異常檢測

數據挖掘中,異常檢測(也稱為異常檢測)是對稀有項目,事件或觀察結果的識別,這些稀有物品,事件或觀察值通過與大多數數據顯著不同而引起懷疑。通常,異常項目代表了銀行欺詐,結構缺陷,醫療問題或文本中的錯誤。異常稱為異常值,新穎性,噪音,偏差和例外。

特別是,在濫用和網絡入侵檢測的背景下,有趣的對象通常不是罕見的對象,而是意外的無活動爆發。這種模式不遵守異常值作為罕見對象的共同統計定義。除非適當匯總,否則許多離群檢測方法(特別是無監督算法)將失敗。取而代之的是,群集分析算法可能能夠檢測這些模式形成的微群集。

存在三大類異常檢測技術。通過尋找似乎適合其餘數據集的實例,無標記的測試數據集中的無標記的測試數據集中檢測異常。監督的異常檢測技術需要一個被標記為“正常”和“異常”的數據集,並且涉及訓練分類器(與許多其他統計分類問題的關鍵區別是異常檢測的固有不平衡性質)。半監督的異常檢測技術構建了代表給定正常訓練數據集的正常行為的模型,然後測試模型生成的測試實例的可能性。

機器人學習

機器人學習的靈感來自多種機器學習方法,從監督學習,強化學習以及最後的元學習(例如MAML)開始。

協會規則

協會規則學習是一種基於規則的機器學習方法,用於在大型數據庫中發現變量之間的關係。它旨在使用某種“興趣”量度確定在數據庫中發現的強有規則。

基於規則的機器學習是任何機器學習方法的一般術語,該方法可以識別,學習或進化以存儲,操縱或應用知識的“規則”。基於規則的機器學習算法的定義特徵是識別和利用一組關係規則,這些規則共同表示系統捕獲的知識。這與其他機器學習算法相反,這些算法通常識別一個可以普遍應用於任何實例以進行預測的單數模型。基於規則的機器學習方法包括學習分類器系統,關聯規則學習和人工免疫系統

根據強大規則的概念, Rakesh AgrawalTomaszImieliński和Arun Swami提出了協會規則,以發現超市中銷售點(POS)系統記錄的大規模交易數據中的產品之間的規則。例如,規則在超市的銷售數據中發現的將表明,如果客戶一起購買洋蔥和土豆,他們也可能會購買漢堡肉。這些信息可以用作有關促銷定價產品安排等營銷活動的決策的基礎。除了市場籃分析外,今天還採用了關聯規則,包括網絡使用挖掘入侵檢測持續生產生物信息學。與序列開採相反,關聯規則學習通常不考慮交易中或跨交易中的項目順序。

學習分類器系統(LCS)是一個基於規則的機器學習算法的家族,將發現組件(通常是遺傳算法)與學習組成部分結合在一起,進行監督的學習強化學習無監督的學習。他們試圖確定一組與上下文相關的規則,這些規則以分段方式集體存儲和應用知識以做出預測。

歸納邏輯編程(ILP)是一種使用邏輯編程作為輸入示例,背景知識和假設的統一表示的規則學習的方法。鑑於對已知背景知識的編碼以及表示為事實的邏輯數據庫的一組示例,ILP系統將得出一個假設的邏輯程序,該程序需要所有正面且無效的示例。歸納編程是一個相關的領域,它考慮用於表示假設(以及邏輯編程)(例如功能程序)的任何形式的編程語言。

歸納邏輯編程在生物信息學自然語言處理中特別有用。 Gordon PlotkinEhud Shapiro在邏輯環境中奠定了歸納機器學習的最初理論基礎。夏皮羅(Shapiro)於1981年建立了他們的第一個實施(模型推理系統):一個序言程序,從正面和負面示例中誘導推斷邏輯程序。這裡的歸納術語是指哲學歸納,提出了一種理論來解釋觀察到的事實,而不是數學歸納,證明了井井有條的所有成員的財產。

楷模

執行機器學習可能涉及創建模型,該模型對某些培訓數據進行了培訓,然後可以處理其他數據以進行預測。已經用於機器學習系統的各種模型。

人工神經網絡

人工神經網絡是一組相互聯繫的節點,類似於大腦中龐大的神經元網絡。在這裡,每個圓形節點代表一個人造神經元,箭頭代表從一個人造神經元的輸出到另一個人的輸入的連接。

人工神經網絡(ANN)或Connectionist Systems是由構成動物大腦生物神經網絡含糊其啟發的計算系統。這樣的系統“學習”通過考慮示例來執行任務,通常不會使用任何特定任務的規則編程。

ANN是一個基於一個稱為“人造神經元”的連接單元或節點集合的模型,該單元或節點在生物學大腦中鬆散地對神經元進行了模擬。每個連接,就像生物大腦中的突觸一樣,都可以將信息傳輸到“信號”,從一個人工神經元到另一種人工神經元。接收信號的人造神經元可以對其進行處理,然後向連接到它的其他人工神經元發出信號。在常見的ANN實現中,人工神經元之間連接的信號是實際數字,並且每個人工神經元的輸出是通過其輸入之和的某些非線性函數計算的。人造神經元之間的連接稱為“邊緣”。人造神經元和邊緣通常具有隨著學習的進行調整的重量。重量在連接下增加或降低信號的強度。人造神經元可能具有閾值,以便僅當骨料信號交叉閾值時,信號才會發送。通常,人造神經元匯總成層。不同的層可能會對其輸入進行不同種類的轉換。信號從第一層(輸入層)傳播到最後一層(輸出層),可能是多次穿越層之後。

ANN方法的最初目標是以人腦的方式解決問題。但是,隨著時間的流逝,注意力轉移到執行特定任務上,導致與生物學的偏差。人工神經網絡已用於各種任務,包括計算機視覺語音識別機器翻譯社交網絡過濾,遊戲板和視頻遊戲以及醫療診斷

深度學習由人工神經網絡中的多個隱藏層組成。這種方法試圖建模人類大腦將光線和聲音的方式建模為視覺和聽力。深度學習的一些成功應用是計算機視覺語音識別

決策樹

泰坦尼克號乘客的生存概率的決策樹

決策樹學習使用決策樹作為一種預測模型,可以從有關項目(分支中表示)的觀察結果到有關項目目標值的結論(在葉子中表示)。它是統計,數據挖掘和機器學習中使用的預測建模方法之一。目標變量可以採用離散值的樹模型稱為分類樹;在這些樹結構中,葉子代表類標籤,分支表示導致這些類標籤的特徵的連詞。目標變量可以採用連續值(通常是實數)的決策樹稱為回歸樹。在決策分析中,決策樹可用於視覺和明確表示決策和決策。在數據挖掘中,決策樹描述了數據,但是所得的分類樹可以是決策的輸入。

支持矢量機

支持向量機(SVM),也稱為支持矢量網絡,是用於分類和回歸的一系列相關監督學習方法。給定一組訓練示例,每個示例都標記為屬於兩個類別之一,SVM培訓算法構建了一個模型,可以預測一個新示例是否屬於一個類別。 SVM訓練算法是一種非概率二進制線性分類器,儘管存在諸如PLATT縮放的方法在概率分類設置中使用SVM。除了執行線性分類外,SVM還可以使用所謂的內核技巧有效地執行非線性分類,從而暗中將其輸入映射到高維特徵空間中。

回歸分析

數據集的線性回歸的插圖

回歸分析包括各種統計方法,以估計輸入變量及其相關特徵之間的關係。它最常見的形式是線性回歸,其中繪製一條線以根據數學標準(例如普通最小二乘正方形)最能擬合給定數據。如脊回歸中,通常通過正則方法來減輕過度擬合和偏見來擴展後者。在處理非線性問題時,首選模型包括多項式回歸(例如,用於Microsoft Excel中的趨勢線擬合),邏輯回歸(通常用於統計分類)甚至內核回歸,這些回歸通過利用優勢引入非線性內核技巧將隱式映射輸入變量映射到更高維空間。

貝葉斯網絡

一個簡單的貝葉斯網絡。雨水會影響灑水器是否被激活,雨水和灑水都會影響草是否濕。

貝葉斯網絡,信念網絡或有向的無環圖形模型是一個概率圖形模型,它用定向的無環圖(DAG)代表一組隨機變量及其條件獨立性。例如,貝葉斯網絡可以代表疾病與症狀之間的概率關係。考慮到症狀,該網絡可用於計算存在各種疾病的概率。存在執行推理和學習的有效算法。模擬變量序列(例如語音信號蛋白質序列)的貝葉斯網絡稱為動態貝葉斯網絡。在不確定性下可以代表和解決決策問題的貝葉斯網絡的概括稱為影響圖

高斯流程

與其他回歸模型相比,高斯過程回歸(預測)的示例

高斯過程是一個隨機過程,在該過程中,該過程中隨機變量的每個有限集合都具有多元正態分佈,並且依賴於預定義的協方差函數或內核,它們模擬了點對彼此之間如何相互關係在他們的位置。

給定一組觀察到的點或輸入輸出示例,可以直接計算出新點作為其輸入數據功能的(未觀察到)輸出的分佈,就像觀察到的點和這些點之間的協方差一樣,可以直接計算,未觀察到的點。

高斯過程是用於進行超參數優化的貝葉斯優化中流行的替代模型。

遺傳算法

遺傳算法(GA)是一種搜索算法啟發式技術,它使用突變交叉等方法來模仿自然選擇的過程,以生成新的基因型,以期為給定問題找到良好的解決方案。在機器學習中,在1980年代和1990年代使用了遺傳算法。相反,機器學習技術已被用來提高遺傳和進化算法的性能。

信念功能

信仰理論的功能理論,也稱為證據理論或Dempster -shafer理論,是一個不確定性推理的一般框架,並理解了與其他框架(例如概率可能性不精確理論)的聯繫。這些理論框架可以被認為是一種學習者,並且具有一些類似的屬性,即證據的組合方式(例如,Dempster的組合規則),就像在基於PMF的貝葉斯方法中如何結合概率一樣。但是,與貝葉斯方法相比,這些信念的功能有許多警告,以納入無知和不確定性量化。這些信念功能方法在機器學習領域內實施的方法通常利用各種合奏方法的融合方法來更好地處理學習者的決策邊界,低樣本和標準機器學習方法傾向於難以解決的歧義類問題。但是,這些算法的計算複雜性取決於命題(類)的數量,並且與其他機器學習方法相比,計算時間可能更高。

培訓模型

通常,機器學習模型需要大量可靠的數據,以使模型執行準確的預測。在訓練機器學習模型時,機器學習工程師需要針對並收集大量的代表性數據樣本。培訓集中的數據可以與文本語料庫,圖像,傳感器數據集和從服務的單個用戶收集的數據一樣多樣化。在訓練機器學習模型時要注意過度擬合。從偏見或未評估數據中得出的訓練的模型可能會導致偏斜或不希望的預測。偏見模型可能會導致有害結果,從而進一步進一步對社會或目標產生負面影響。算法偏差是數據未充分準備培訓的潛在結果。機器學習倫理正在成為一個研究領域,並且特別是集成在機器學習工程團隊中。

聯合學習

聯合學習是一種分佈式人工智能的一種改編形式,用於培訓機器學習模型,該模型將培訓過程分散,從而使用戶的隱私無需將其數據發送到集中式服務器來維護。這也通過將培訓過程分散到許多設備來提高效率。例如, Gboard使用聯合機器學習來訓練用戶手機上的搜索查詢預測模型,而無需將單個搜索發送回Google

申請

機器學習有許​​多應用程序,包括:

2006年,媒體服務提供商Netflix舉行了首次“ Netflix獎”競賽,以找到一個節目,以更好地預測用戶偏好並將其現有Cinematch Movie Movie推薦算法的準確性提高至少10%。由AT&T Labs的研究人員組成的聯合團隊與團隊大混亂和務實理論合作建立了合奏模型,以100萬美元的價格贏得了2009年的大獎。頒獎後不久,Netflix意識到觀眾的收視率並不是其觀看方式的最佳指標(“一切都是推薦的”),他們相應地更改了推薦引擎。 2010年,《華爾街日報》(Wall Street Journal)撰寫了有關公司叛亂研究及其對機器學習預測金融危機的使用。 2012年, Sun Microsystems的聯合創始人Vinod Khosla預測,在未來二十年中,有80%的醫生工作將丟失,以自動化機器學習醫療診斷軟件。據報導,2014年,一種機器學習算法已在藝術史領域應用於研究美術繪畫,並且可能揭示了藝術家的先前未認識的影響。在2019年,施普林格自然發表了第一本使用機器學習創建的研究書。 2020年,機器學習技術被用來幫助診斷和幫助研究人員開發Covid-19的治療方法。最近應用機器學習來預測旅行者的促環境行為。最近,根據用戶與手機的互動,機器學習技術還用於優化智能手機的性能和熱行為。當正確應用時,機器學習算法(MLAS)可以利用廣泛的公司特徵來預測股票收益而不會過度擬合。通過採用有效的功能工程並結合預測,MLA可以產生遠遠超過從OLS等基本線性技術獲得的結果。

限制

儘管機器學習在某些領域是有變革性的,但機器學習計劃通常無法提供預期的結果。原因很多:缺乏(合適的)數據,缺乏訪問數據,數據偏見,隱私問題,不良選擇的任務和算法,錯誤的工具和人員,缺乏資源以及評估問題。

黑匣子理論”提出了另一個重大挑戰。黑匣子是指算法或產生輸出的過程完全不透明的情況,這意味著即使是算法的編碼器也無法審核機器從數據中提取的模式。上議院選擇委員會聲稱,這種“情報製度”可能會對個人的生活產生重大影響”,除非它提供“對決定的充分而令人滿意的解釋”,否則它將被認為是可以接受的。

2018年, Uber的一輛自動駕駛汽車未能檢測到一名行人,後者在碰撞後被殺害。 IBM Watson系統在醫療保健中使用機器學習的嘗試即使經過多年的時間和數十億美元的投資也無法交付。據報導,微軟的聊天機器人會對其用戶產生敵對和進攻性的反應。

機器學習已被用作更新與系統審查有關的證據的策略,並增加了與生物醫學文獻的增長有關的審查者負擔。儘管培訓集有所改善,但尚未做出足夠的發展以減輕工作負擔,而無需限制對發現研究的必要敏感性。

偏見

特別是機器學習方法可能會遭受不同的數據偏見。經過專門針對當前客戶的機器學習系統可能無法預測培訓數據中未代表的新客戶群的需求。當接受人造數據的培訓時,機器學習可能會吸收社會中已經存在的憲法和無意識的偏見。

從數據中學到的語言模型已顯示出包含類似人類的偏見,包括但不限於語言偏見,性別偏見,種族偏見,政治偏見和刻板印象。

語言偏見

語言偏見是指與查詢語言相關的一種統計抽樣偏差,該偏差導致“在抽樣信息中有系統的偏差,可防止其準確地表示其存儲庫中可用的主題和視圖的真實覆蓋範圍”。由於當前的大型語言模型主要是對英語數據進行培訓的,因此他們經常將盎格魯 - 美國人視為真理,同時系統地將非英語視角淡化為無關,錯誤或噪音。 Luo等人的作品表明,當以“自由主義是什麼是自由主義?”等政治意識形態進行詢問時,Chatgpt接受了以英語為中心的數據進行培訓,從盎格魯- 美國的角度描述了自由主義,強調了人權和平等方面,儘管從普遍的中國角度來看,諸如“反對國家和經濟生活的國家干預”等方面也是“反對國家和經濟生活的國家干預”。

性別偏見

大型語言模型通常會增強性別刻板印象,根據傳統的性別規範分配角色和特徵。例如,它可能主要將護士或秘書與婦女,工程師或CEO與男性聯繫起來,使性別期望和角色永存。

種族偏見

語言模型中的種族偏見是一個關鍵問題。這些系統有時會產生使刻板印象永久化或使某些種族群體邊緣化的語言。例如,他們可能會將負面情緒或犯罪性與特定的種族或族裔群體相關聯,這反映了培訓數據中存在的社會偏見。預測性警務公司Propublica進行的一項實驗,涉及機器學習算法對囚犯的累犯率的洞察力,錯誤地標記為“黑被告高風險的高風險是白色被告的兩倍”。在2015年,Google照片通常會將黑人標記為大猩猩,而在2018年,這仍然沒有得到很好的解決,但據報導,Google仍在使用解決方法從訓練數據中刪除所有大猩猩,因此無法識別真正的大猩猩全部。在許多其他系統中發現了認識非白人的類似問題。 2016年,微軟測試了從Twitter學到的聊天機器人,並迅速挑選了種族主義和性別歧視語言。

刻板印象

除性別和種族外,這些模型還可以增強廣泛的刻板印象,包括基於年齡,國籍,宗教或職業的刻板印象。這可能會導致不公平地概括或諷刺人群的輸出,有時是有害或貶義的。

政治偏見

語言模型也可能表現出政治偏見。由於培訓數據包括廣泛的政治觀點和報導,因此這些模型可能會產生對特定政治意識形態或觀點的反應,這取決於數據中這些觀點的普遍性。

由於這種挑戰,機器學習的有效使用可能需要更長的時間才能在其他領域中採用。人們對機器學習中的公平性的關注,也就是說,減少機器學習和推動其對人類商品的使用的偏見越來越多地由人工智能科學家表達,包括Fei-fei Li ,他們提醒工程師:“關於AI沒有人為的……受人們的啟發,它是由人創造的,而且- 最重要的是,它影響了人們。這是一種有力的工具,我們才剛剛開始理解,這是一個深遠的責任。”

解釋性

可解釋的AI(XAI)或可解釋的AI或可解釋的機器學習(XML)是人工智能(AI),其中人類可以理解AI的決定或預測。它與機器學習中的“黑匣子”概念形成鮮明對比,即使是設計師也無法解釋為什麼AI做出特定決定。通過完善AI驅動系統用戶的心理模型並消除其誤解,XAI承諾可以幫助用戶更有效地執行。 XAI可能是社會解釋權的實施。

過度擬合

藍線可能是由於隨機噪聲而過度擬合線性函數的一個示例。

解決一個不好的,過於復雜的理論,以適合過去的所有培訓數據被稱為過度擬合。許多系統試圖通過根據其適合數據的方式獎勵理論來減少過度擬合,但要根據理論的複雜程度來懲罰理論。

其他局限性和漏洞

學習者還可以通過“學習錯誤的教訓”而令人失望。一個玩具的例子是,僅在棕色馬和黑貓的圖片上訓練的圖像分類器可能會得出結論,所有棕色的斑塊都可能是馬。一個現實世界的例子是,與人類不同,當前的圖像分類器通常並不主要是從圖片組成部分之間的空間關係中判斷,並且他們學習了人類忽略的像素之間的關係,但這仍然與某些圖像有關真實對象的類型。在合法圖像上修改這些模式可能會導致系統錯誤分類的“對抗性”圖像。

對抗性漏洞也可能導致非線性系統或非圖案擾動。對於某些系統,只能通過更改單個對手選擇的像素來更改輸出。機器學習模型通常容易通過對抗機器學習來操縱和/或逃避。

研究人員已經證明瞭如何將後門放置在分類中(例如,對於經常由第三方開發和/或培訓的類別“垃圾郵件”和可見的“垃圾郵件”)機器學習模型。當事方可以更改任何輸入的分類,包括在提供類型的數據/軟件透明度的情況下,可能包括White-Box訪問

模型評估

機器學習模型的分類可以通過準確估計技術(例如Holdout方法)來驗證,該技術將數據拆分為訓練和測試集(常規2/3訓練集和1/3測試集),並評估培訓模型的性能在測試集上。相比之下,k折疊驗證方法隨機將數據分別分為k子集,然後分別考慮了每個考慮1個子集的評估子集和剩餘的K-1子集以訓練模型。除了保留和交叉驗證方法外,還可以使用Bootstrap (以替換數據集對N實例進行採樣)來評估模型準確性。

除了整體準確性外,研究人員還經常報告敏感性和特異性,這意味著真正的正率(TPR)和真正的負率(TNR)。同樣,研究人員有時會報告假陽性率(FPR)以及假陰性率(FNR)。但是,這些速率是無法揭示其分子和分母的比率。總操作特徵(TOC)是表達模型診斷能力的有效方法。 TOC顯示了前面提到的速率的分子和分母,因此TOC提供的信息比常用的接收器操作特徵(ROC)和曲線下的ROC相關區域(AUC)提供了更多信息。

倫理

機器學習提出了許多道德問題。在使用偏見收集的數據集上訓練的系統可能會在使用後表現出這些偏見(算法偏見),從而將文化偏見進行數字化。例如,在1988年,英國種族平等委員會發現,聖喬治醫學院一直使用一項計算機計劃,該計劃是從以前的招生人員數據中​​培訓的,該計劃否認了近60名候選人,這些候選人被認為是女性或非女性 - 歐洲聽起來的名字。使用來自種族主義招聘政策的公司的工作招聘數據可能會導致機器學習系統通過與以前的成功申請人相似,從而使偏見複製偏見。另一個示例包括預測性警務公司Geolitica的預測算法,該算法“在接受歷史犯罪數據的培訓後,“低收入和少數民族社區中的過度積極性過高”。

雖然負責收集系統使用的算法規則的數據和文檔被認為是機器學習的關鍵部分,但一些研究人員指責AI領域的少數民族人數缺乏參與和代表機器學習的偏見脆弱性。實際上,根據計算研究協會(CRA)在2021年進行的研究,“女教師僅佔16.1%”,這些教師專注於全球幾所大學中的AI。此外,在“新的美國居民AI博士畢業生”中,有45%的人被確定為白人,22.4%為亞洲人,3.2%為西班牙裔,為非裔美國人,這進一步證明了AI領域的多樣性缺乏多樣性。

AI可以很好地在技術領域做出決策,這些領域嚴重依賴數據和歷史信息。這些決定依賴於客觀性和邏輯推理。由於人類語言包含偏見,因此接受語言語料庫培訓的機器也必須學習這些偏見。

在醫療保健中可以看到其他形式的道德挑戰,與個人偏見無關。衛生保健專業人員有些擔心,這些系統可能不是出於公眾的利益而設計的,而是作為創收機器的設計。在美國尤其如此,在美國長期存在改善醫療保健的道德困境,但也增加了利潤。例如,該算法可以設計為為患者提供不必要的測試或藥物,其中該算法的專有所有者持有利益。醫療保健中的機器學習有可能為專業人員提供診斷,藥物和計劃患者的恢復道路的額外工具,但這需要減輕這些偏見。

硬體

自2010年代以來,機器學習算法和計算機硬件的進步都導致了更有效的方法來訓練深層神經網絡(機器學習的特定狹窄子域),其中包含許多非線性隱藏單元的層。到2019年,通常具有AI特定增強功能的圖形處理單元( GPU )將CPU取代為訓練大規模商業雲AI的主要方法。 Openai估計了從Alexnet(2012)到Alphazero(2017)中最大的深度學習項目中使用的硬件計算,並發現所需的計算量增加了30萬倍,而二倍時間趨勢線為3.4個月。

神經形態/物理神經網絡

物理神經網絡神經形態計算機是一種人工神經網絡,其中使用可調材料來模仿神經突觸的功能。 “物理”神經網絡用於強調依賴用於模擬神經元而不是基於軟件方法的物理硬件。更一般而言,該術語適用於其他人工神經網絡,其中使用者或其他可調電阻材料用於模仿神經突觸。

嵌入式機器學習

嵌入式機器學習是機器學習的子場,在該嵌入式系統上運行機器學習模型,具有有限的計算資源,例如可穿戴計算機邊緣設備微控制器。嵌入式設備中的運行機器學習模型消除了在雲服務器上傳輸和存儲數據的需求,此後,由於傳輸數據而發生了進一步處理,減少數據洩露和隱私洩漏,還可以最大程度地減少知識產權,個人數據和商業秘密的盜竊。嵌入式機器學習可以通過幾種技術(包括硬件加速度,使用近似計算,機器學習模型的優化等等)應用。

軟體

包含各種機器學習算法的軟件套件包括以下內容:

免費和開源軟件

免費和開源版本的專有軟件

專有軟件

期刊

會議

也可以看看