計算語言學
計算語言學是與自然語言的計算建模有關的跨學科領域,以及對語言問題的適當計算方法的研究。一般而言,計算語言學借鑒了語言學,計算機科學,人工智能,數學,邏輯,哲學,認知科學,認知心理學,心理語言學,人類學和神經科學等。
自2020年代以來,計算語言學已成為自然語言處理或語言技術的幾乎同義詞,具有深度學習方法(例如大語言模型) ,表現優於先前在現場使用的特定方法。
起源
自1950年代在美國的努力以來,該領域與人工智能重疊,以便將計算機自動將文本從外語(尤其是俄羅斯科學期刊)轉化為英語。由於基於規則的方法能夠比人類更快,更準確地進行算術(系統的)計算,因此預計詞典,形態學,語法和語義也可以使用顯式規則來學習。在基於規則的方法失敗之後,戴維·海斯(David Hays)創造了該術語,以將領域與AI區分開,並共同創立了1970年代和1980年代的計算語言學協會(ACL)和國際計算語言學委員會(ICCL) 。最初的努力是在語言之間轉化為自然語言處理的更廣泛領域。
註釋的語料庫
為了能夠精心研究英語,非常需要帶註釋的文本語料庫。賓夕法尼亞州立大學是最常用的語料庫之一。它由IBM計算機手冊,抄錄電話對話和其他文本組成,其中包含超過450萬個美國英語單詞,並使用詞性標記和句法括號進行註釋。
分析了日本句子語料庫,並發現了與句子長度有關的對數正態的模式。
建模語言獲取
在語言獲取期間,兒童在很大程度上只有積極的證據,這意味著提供了正確形式的唯一證據,而沒有任何不正確的證據,這是當時的限制,因為現在可用的深度學習模型在1980年代後期不可用。
已經表明,隨著兒童發展更好的記憶力和更長的注意力跨度,可以通過逐步提出的簡單輸入的結合來學習語言,這解釋了人類嬰兒和兒童的長期語言獲取。
機器人已被用於測試語言理論。啟用了作為孩子可能學習的學習,是基於可承受的模型創建的模型,在該模型中,創建了動作,感知和效果之間的映射,並鏈接到口語單詞。至關重要的是,這些機器人能夠獲取功能性的單詞到含義的映射而無需語法結構。
使用價格方程和Pólyaurn動力學,研究人員創建了一個系統,該系統不僅可以預測未來的語言演化,而且還可以深入了解現代語言的進化歷史。
喬姆斯基的理論
已經嘗試確定嬰兒如何學習“非正常語法”,而喬姆斯基正常形式在不學習“過度概括的版本”和“被卡住”的情況下進行了理論化。