搭配

語料庫語言學中,搭配是一系列單詞或術語,這些單詞或術語的共同發生頻率比偶然的預期要多。在短語中,搭配是一種構圖短語,這意味著它可以從組成的單詞中理解。這與一個成語形成鮮明對比的是,整體的含義不能從其部分中推斷出來,並且可能完全無關。

大約有七種主要類型的搭配類型:形容詞 +名詞,名詞 +名詞(例如集體名詞),名詞 +動詞,動詞 +名詞,副詞 +形容詞,動詞 +介詞 +介詞短語( phrasal動詞)和動詞 + adverb。

搭配提取是一種計算技術,使用類似於數據挖掘的各種計算語言學元素在文檔或語料庫中找到搭配。

擴展的定義

搭配是部分或完全固定的表達式,通過重複與上下文相關的使用建立。清晰中層管理核家族整容手術等術語是單詞對的示例。

搭配可以處於句法關係(例如動詞 - 對象製作決策),詞彙關係(例如反義詞),也可以沒有語言定義的關係。對搭配的知識對於有效地使用一種語言至關重要:如果違反搭線的偏好,語法正確的句子將尷尬地脫穎而出。這使得搭配成為語言教學的有趣領域。

語料庫語言學家在上下文( KWIC )中指定一個關鍵詞,並立即識別其周圍的單詞。這給出了一種使用單詞的使用方式。

搭配的處理涉及許多參數,其中最重要的是關聯度量,該參數評估了同時存在是否純粹是偶然的還是統計學意義的。由於語言的非隨機性質,大多數搭配被歸類為重要,並且關聯得分僅用於對結果進行排名。相關的常用度量包括共同信息t分數對數樣式

Gledhill並沒有選擇單個定義,而是提出搭配涉及至少三個不同的觀點:共發生,統計視圖,將置列視為節點及其相處的文本中的複發外觀;結構,將搭配視為詞彙和詞彙語法模式之間的相關性,或者是基礎與同伴侶之間的關係。和表達,無論形式如何,搭配是傳統表達單位的務實視圖。這些不同的觀點與短語研究中呈現搭配的通常方式形成鮮明對比。從傳統上講,搭配是通過所有三種觀點在連續體中立即解釋的:

自由組合↔結束搭配↔冷凍習慣

在詞典中

1933年,哈羅德·帕爾默(Harold Palmer)關於英語搭配的第二次臨時報告強調了搭配是對任何學習外語的人,作為製作自然語言的關鍵的重要性。因此,從1940年代開始,有關復發單詞組合的信息成為單語學習者詞典的標準特徵。隨著這些詞典變得“以單詞為中心,以短語為中心”,更多地關注搭配。從21世紀初開始,通過大型文本語料庫和智能語料庫的軟件來支持這種趨勢,這使得有可能對詞典中的搭配進行更系統的說明。使用這些工具,諸如Macmillan英語詞典Longman Englisher的詞典等詞典包括盒子或面板,並帶有頻繁搭配列表。

還有許多專門的詞典,致力於描述一種語言的頻繁搭配。其中包括(對於西班牙語)重新:diccionario bombinatorio delespañol同時發生(2004年),(法語) le Robert:dictionnaire des bombinaisons de Mots (2007),(對於英語)和(對於英語) LTP的LTP詞典(1997年)和Macmillan(Macmillan )搭配詞典(2010年)。

統計上顯著的搭配

學生的t檢驗可用於確定語料庫中搭配的發生是否具有統計學意義。為了一個 , 讓是出現的無條件概率在大小的語料庫中 , 然後讓是出現的無條件概率在語料庫中。 Bigram的T得分被計算為:

在哪裡是出現的樣本平均值 ,,,, 是出現的數量 ,,,, 在無效的假設下在文本中獨立出現,並且是樣本差異。大t檢驗等效於z檢驗

也可以看看