凝集
在語言學中,凝集是一個形態學過程,其中單詞通過將詞素串在一起而形成單詞,每個詞素都對應於單個句法特徵。使用凝集的語言被廣泛稱為凝集性語言。例如,用土耳其語的凝結性語言, evlerinizden (“來自您的房屋”)一詞由詞素ev-ler-iniz-den組成,字面意思是逐個詞法,逐個詞素為房屋植物(複數) - 從。凝集性語言通常與孤立的語言形成對比,其中單詞是單態性和融合語言,其中單詞可能很複雜,但詞素可能與多種特徵相對應。
凝集語言的示例
儘管凝集是某些語言家族的特徵,但這並不意味著當某個地理區域中的幾種語言都是凝集性的,它們一定在系統發育上是相關的。過去,這種假設導致語言學家提出了所謂的烏拉爾語言家族,其中包括烏拉爾語和突觸語言,以及蒙古,韓語和日語。當代語言學認為這一建議是有爭議的。
評估上述建議時的另一個考慮因素是,某些從凝集性原始語言發展而來的語言失去了凝結的特徵。例如,當代愛沙尼亞人已轉向融合類型。 (它還失去了烏拉爾家族的典型特徵,例如元音和諧。)
歐亞大陸和大洋洲
凝集性語言的例子包括烏拉爾語言,例如芬蘭語,愛沙尼亞語和匈牙利語。這些在日常用法中具有高度凝聚的表達式,大多數單詞都是雙音詞或更長的時間。通常在後綴中找到由西方印歐語言中的定位表示的語法信息。
匈牙利人幾乎在其中的每個部分都使用廣泛的凝聚力。後綴根據後綴的角色以特殊順序互相跟隨,許多後綴彼此之間可以堆積,導致單詞以緊湊的形式傳達複雜的含義。一個例子就是fiaiéi,詞根“ fi(fi(ú))”的意思是“兒子”,隨後的四個元音都是單獨的後綴,整個單詞的意思是“ [複數屬性]屬於他/她的兒子”。嵌套的所有格結構和復數的表達非常出色(請注意,匈牙利不使用性別)。
幾乎所有的奧地利語言,例如馬來語和大多數菲律賓語言,也屬於此類別,從而使它們能夠從簡單的基本形式中形成新單詞。印尼和馬來語單詞mempertanggungjawabkan是通過在復合動詞tanggung jawab中添加活躍的,因果關係和恩惠的詞綴來形成的,這意味著“考慮到”。在Tagalog (及其標準化寄存器,菲律賓)中, Nakakapágpabagagag (“令人沮喪/令人不安”)是由根Bagabag (“沮喪”或“令人沮喪”)形成的。
在東亞,韓語是一種凝聚的語言。它的使用“ 조사 ”,“ ” ,“'”使韓國飼養。它們代表時態,時間,數字,休閒,榮譽形式。
日本人也是一種像韓語一樣凝聚的語言,添加了諸如動詞形式的否定,被動語音,過去時態,榮譽程度和因果關係之類的信息。常見的例子將是Hatarakaseraretara (Hatarakaseraretara(働かせられ) ,它結合了因果關係,被動或潛在的,有條件的結合,根據上下文的不同含義,“如果(主題)工作...可以使(對象)起作用”,而tabetakunakatta (tabetakunakatta (食べたく)結合了慾望,否定和過去時態的結合,表示“ i/he/he/she/他們不想吃”。
- taberu (“(主題)會吃)”)
- tabetai (“(主題)想要吃(it)”)
- tabetakunai (“(主題)不想吃(it)”)
- tabetakunakatta (“(主題)不想吃(it)”)
土耳其語以及所有其他突然的語言,是另一種凝聚的語言:作為一個極端的例子, MuvaffakiyetsizleştirivereMeyebileMeyebileMeyeBilemizDenMişsinizcesinesectesine在Turkish中是一個單詞,在Turkish中是一個單詞,但可以將其翻譯成英語,如您所能像您一樣,我們可以像您一樣能夠將其翻譯成“變成不成功的製造商”。 “ -siniz”指的是您的複數形式,“ -sin”是單數形式,以相同的方式“ -im” bes'i”(“ -im”表示“我的”不是“我”。原始編輯必須將其誤認為是“ -yim”。第二個後綴被用作“ oraya gideyim”的意思是“我可以去那裡”或“當我到達那裡時”)和“ -imiz”,使其成為“我們”。同樣,這個後綴表示“我們的”,而不是“我們”。
泰米爾語是凝聚的。例如,在泰米爾語中,“ அதைப்பண்ணமுடியாதவர்களுக்காக ”( ataippaṇamuṭiyātavarkaḷukkāka )的意思是“為了那些無法做到這一點的人”,從字面上看”,從字面上看,這是不可能的,他[複數標記] [daterivation Marker] [daterive Marker]要成為”。另一個示例是動詞結合。在所有德拉維語的語言中,言語標記都用於傳達時態,人和情緒。例如,在泰米爾語中,“ சாப்பிடுகிறேன் ”( cāppiṭukiṟēṉ ,“我吃”)是由動詞root சாப்பிடு- ( cāppiṭu- ,“ to Eat”)形成的 +現在的時態標記- கிற்- ( -kiṟ- ) +第一個-person單數後綴- ஏன் ( -ēṉ )。
凝集也是巴斯克的顯著特徵。例如,動詞的結合是通過在動詞的根上添加不同的前綴或後綴來完成的: dakartzat ,意思→Bring), TZA (指示複數)和t (在這種情況下為“ I”表示主題)。另一個例子是變化: etxean =“在房子裡” etxe = house。
美洲
大多數美國原住民語言都非常大量地使用凝聚力_用其他語言的複雜句子。相反,納瓦霍(Navajo)包含一些用途的詞綴,但以這種不可預測和不可分割的方式覆蓋它們,通常稱為融合語言。
老虎機
如上所述,這是凝集性語言的典型特徵,即後綴和句法類別之間存在一對一的對應關係。例如,一個名詞可能具有數字,情況,案例,所有格或結合用法等單獨的標記。這些詞綴的順序是固定的。因此,我們可以將任何給定的名詞或動詞視為詞幹,然後將幾個拐點和衍生的“插槽”視為詞幹,即可能發生特定後綴的位置,並且/或在前綴上有幾個“插槽”。通常情況下,給定語法類別的最常見實例是未標記的,即相應的詞綴為空。
語音給定部分的插槽數量可能令人驚訝地很高。例如,有限的韓國動詞有七個插槽(內部圓形支架表示詞素的一部分,這些部分可能在某些語音環境中省略):
- 榮譽: - (EU)SI (((으)시)在尊敬句子的主題時使用
- 時態: - (EO)SS (EO)SS(過去)動作或狀態;當此插槽為空時,將時態解釋為存在(如果將其放置在輔音後面,則將“ SS”發音為“ t”。 었다(eoss-ta)發音為(eotta)。請注意,同一規則適用於“ ss”結尾的所有實例。)
- 體驗對比的方面: - (EO)SS (EO)將過去時標記的一倍加倍表示“受試者俱有動詞描述的經驗”
- 模式: -gess (겠)僅用於第一人稱主題,僅用於確定的未來,第二或三分之一的人也用於可能存在或過去
- 正式: - (歐盟)pni (((으)ㅂ니)向聽眾表示禮貌
- 回顧性方面: -deo ; (더)表明說話者回憶起他過去觀察到的內容,並在當前情況下報告
- 情緒: -da (-da(다),宣言性, -kka (까),用於疑問, -ra/-la (라)命令,-ja( -ja (자),以提案, -yo (요 )其他可能的情緒標記
此外,可以通過向基礎添加後綴來得出被動和因果的言語形式,這可以看作是null-then插槽。
即使不可能進行一些後綴組合(例如,只有一個方面插槽可以用非空後綴填充),但可以從單個底座形成400多個動詞形式。以下是root ga'to to'一詞形成的一些示例;數字表明哪些插槽包含非空後綴:
- 7(命令情緒標記):命令後綴-ra (라)與根ga- (가)結合表達命令: ga-ra (가라)'go!';
- 7(提議性的情緒標記):如果我們想表達命題而不是命令,則使用建議情緒標記: -ja (자)而不是-ra (라): ga -ja (가자)'ga -ja(가자) '讓我們走!”
- 5和7:如果發言人想表現出對聽眾的尊重,他會使用禮貌標記- (eu)pni (((으)ㅂ니)(在插槽5中);可以同時使用各種情緒標記(在插槽7中,因此在禮貌標記之後): Gap-ni-da (갑니다)'他要走了。', Gap-ni-kka? (갑니까)“他要去嗎?”
- 6:回顧性方面: Jon-i Jib-e ga-deo-ra (존이집에)'我觀察到約翰要回家了,現在我向您報告了。”
- 7:簡單的指示: Seon-saeng-Nim-i jib-e gan-da (선생님이에간다)'老師要回家。 (不表達尊重或禮貌)”
- 5和7:對聽眾的禮貌: Seon-saeng-nim-i jib-e jib-e gap-ni-da ( 선생님 선생님집에에 가요)“老師要回家。”,
- 1和7:對主題的尊重: Seon-Saeng-Nim-i Jib-e ga-sin-da (선생님선생님집가신다)“(受尊敬的)老師要回家。”
- 1、5和7:一句話中有兩種禮貌: Seon-saeng-nim-i jib-e ga-syo-yo (선생님선생님집가셔)或seon-saeng-nim-i jib-e- sip-ni -da (선생님선생님에에)'老師要回家。 (對聽眾和老師表示尊重)
- 2、3和7:過去的形式: Jon-i hak-gyo-e ga-ss-da/gat-ta (존이 존 이학교)我hak-gyo-e gass-eoss-da/gass-eot-ta (約翰曾去過學校(並且已經回來)。
- 4和7:第一人稱模式: nae-ga nae-il-il ga-gess-da/ga-get-ta (내내가겠다)'我明天會去。
- 4和7:第三人稱模式: Jon-i nae-il ga ga-gess-da/ga-get-ta (존이존이내일)'我想約翰明天會去。' Gess-da/gat-get- ta (我想約翰昨天離開了。”
後綴或前綴
儘管歐洲和亞洲的大多數凝聚力語言主要是後綴,但東部和南部非洲的班圖語中的班圖語中以前綴,後綴和再現的高度複雜混合而聞名。該語言家族的典型特徵是名詞屬於名詞課程。對於每個名詞類別,都有特定的單數和復數前綴,它們也可以作為主題和動詞之間一致的標誌。此外,該名詞確定所有修改它的單詞的前綴,並確定同一動詞短語中其他元素的前綴。
例如,斯瓦希里語名詞-toto (“ child”)和-tu (“ person”)屬於1級,帶有單數前綴m-和復數前綴wa- 。名詞-tabu (“ book”)屬於7級,帶有奇異的前綴ki-和復數前綴vi- 。可以形成以下句子:
|
|
|
yu-le
1SG-
m-tu
1sg -person
M-Moja
1SG-一個
m-refu
1SG -TALL
a-li
1SG -HE -PAST
是的
7SG -rel-
Ki-Soma
7SG-讀
ki-le
7SG-
ki-tabu
7SG -Book
ki-refu
7sg -long
“那個讀那本長本書的高個子。”
Wa-Le
1PL-
wa-tu
1PL -PERSON
wa-wili
1PL -2
wa-refu
1PL -TALL
wa-li
1PL -HE -PAST
(W)-O
7pl -rel-
VI-SOMA
7PL-閱讀
vi-le
7PL-
vi-tabu
7PL-書
vi-refu
7PL-長
“那兩個讀那些長本書的高個子。”
在定量語言學的背景下
美國語言學家約瑟夫·哈羅德·格林伯格(Joseph Harold Greenberg)在1960年的論文中提議使用所謂的凝集指數來計算數值,這將使研究人員可以比較各種語言的“凝集性程度” 。對於格林伯格來說,凝集意味著變形僅通過輕微或沒有修飾而結合。如果詞素要么採取單一表面形式(變形),或者其表面形式是由在該語言中所有類似情況下持有的語音規則確定的,據說它是自動的。當包含在兩個詞素的單詞時,一個單詞的位置 - 在一個單詞中的一個位置被認為是凝結的。凝集的指數等於凝集連接點的平均比率與變形連接數的數量。凝集指數值高的語言是凝集性的,並且凝集指數值較低。
在同一篇論文中,格林伯格提出了其他幾個指數,其中許多指數與凝集研究有關。綜合指數是每個單詞的平均詞素數,最低的可想像值等於1的隔離(分析)語言和現實壽命的值很少超過3。複合索引等於每個單詞的平均根部形態數(與衍生物和彎曲詞形相對)。衍生物,拐點,前綴和後綴指數分別對應於衍生物和彎曲詞的平均數量,前綴和後綴。
這是樣本值的表:
凝集 | 合成 | 複合 | 推導 | 轉折點 | 前綴 | 後綴 | |
---|---|---|---|---|---|---|---|
斯瓦希里語 | 0.67 | 2.56 | 1.00 | 0.03 | 0.31 | 0.45 | 0.16 |
說土耳其語 | 0.67 | 1.75 | 1.04 | 0.06 | 0.38 | 0.00 | 0.44 |
書面土耳其 | 0.60 | 2.33 | 1.00 | 0.11 | 0.43 | 0.00 | 0.54 |
yakut | 0.51 | 2.17 | 1.02 | 0.16 | 0.38 | 0.00 | 0.53 |
希臘語 | 0.40 | 1.82 | 1.02 | 0.07 | 0.37 | 0.02 | 0.42 |
英語 | 0.30 | 1.67 | 1.00 | 0.09 | 0.32 | 0.02 | 0.38 |
因紐特人 | 0.03 | 3.70 | 1.00 | 0.34 | 0.47 | 0.00 | 0.73 |
語音和凝集
在給定語言中活躍的語音過程,詞綴及其語法功能之間的一對一關係可能會有些複雜。例如,以下兩種語音現像出現在許多烏拉爾語和突厥語中:
- 輔音等級,這意味著某些對輔音簇之間存在交替,因此該對的一個成員出現在一個開放音節的開頭,而在封閉的音節開始時另一個成員出現。 (用烏拉爾語)
- 輔音Devoicing同化:與上面相似但不同的過程,吸收了莖最終未經串擾的輔音的de毀; (在某些土耳其語中)
- 元音和諧,這意味著只有元音的特定子類以非編譯單詞共存。
芬蘭語的幾個示例將說明這兩個規則和其他語音過程如何導致形態與其句法和語義功能之間基本的一對一關係轉移。在塔洛“房子”的衰落中沒有語音規則。但是,第二個例子說明了幾種語音現象。
塔洛 '房子' | MärkäPaita “濕襯衫” | 根包含輔音簇-rk-和-t- |
爪 '在這所房子裡面' | Märä-n paya-n ``濕襯衫'' | 輔音等級:屬詞後綴-n關閉了前一個音節; rk-> r,t-> d |
Talo-SSA '在房子裡' | Märä-Ssäpaida-ssa “穿著濕襯衫” | 元音和諧:包含ä的單詞可能不包含元音A,O,U ; 使用了insessive ending -ssa/ssä的同種異體 |
talo-i-ssa “在房屋中” | mär-i-ssäpodo-i-ssa “穿著濕襯衫” | 語音規則還意味著當複數標記-符合莖最終元音時,元音也有所不同 |
極端
可以構建沒有真正用途的凝集的人為極端的例子,但說明了語法與凝集的理論能力。這不是“長詞”的問題,因為某些語言允許與復合詞,負面文物或類似的無限組合,可以(並且)用實際用法中的分析結構表示。
英語能夠將唯一的本人(日耳曼語)起源的詞素凝結為無所事事,但總的來說,最長的單詞是由拉丁語或古希臘起源的形式組裝而成的。一個經典的例子是反義務。與隔離語言相比,凝集性語言通常具有更複雜的派生凝聚力,因此它們可以在更大的程度上做同樣的方法。例如,在匈牙利語中,諸如elnemzetietleníthetlenségnek之類的單詞,其意思是“出於[非理性性的目的》可以找到實際用途。以同樣的方式,有一些意義的詞,但可能從未使用過,例如legeslegmegségteleníttethetlenetlenebbjeitekként ,它的意思是“像你們中最不可能的最不受約束的人一樣”,但對於本地講話者來說也很難破譯。使用彎曲凝集,可以擴展。例如,吉尼斯世界官方紀錄是芬蘭Epäjärjestelmällistyttämättömyydellänsäkäänköhän “我想知道 - 即使他/她的質量沒有被造態化”。它具有派生的單詞epäjärjestelmällistyTtämättömyys為根,並隨拐點結尾而加長-llänsäkäänköhän 。但是,這個詞在語法上是不尋常的,因為-kään “也”僅在負子句中使用,但是-kö (詢問)僅在問題子句中。
一個非常受歡迎的土耳其凝聚力是Çekoslovakyarılaştıramadıklarımızdanmışsınız ,意思是“(顯然 /我聽說過)您是我們無法轉化為捷克斯洛伐克人的人之一。對於那些難以改變的人或在小組中堅持下去的人來說,這種歷史參考被用作笑話。
另一方面, afyonkarahisarılaştırabildiklerimizdenmişsinizcesine是一個較長的詞,不會讓人感到驚訝,並意味著“好像您是我們能夠使我們從Afyonkarahisar中相似的人之一”。這些主張的最新補充是在土耳其的Muvaffakiyetsizleştiricileştiremeyebilemeyebileceklerimizdenmişsinizinizineizcesine中引入以下單詞的引入,這意味著“(您在說話)”一個沒有教育的人,使人們失敗了)。
格魯吉亞人也是一種高度凝聚的語言。例如, gadmosakontrrevolucieleblebisnairebisatvisaco ( გადმოსაკონტრრევოლუციელებლებისნაირებისათვისაცო )一詞的意思是“(未指定的人)說,對於那些需要再次/背向反逆轉的人來說,這也是如此。
Aristophanes的喜劇集會婦女包括希臘語λοπαδοτεμαχσελαχογαλεογαλεοκρανιολει電話電αVδριμμαμματοσιματοσιματοσιλλλ(αραβομελιτοκμελιδμm都留εραλεκτρυονοπτοκεφαλλλιοκλοπελελειολαγῳοσιραβαφητραγανοπτερύγων,這是一種以列出其成分的單詞命名的虛構菜餚。它的創建是為了嘲笑當時閣樓希臘語中長長的趨勢。
斯拉夫語言不被視為凝集性,而是融合的。但是,確實存在類似於典型的凝集語言中的極端推導。一個著名的例子是保加利亞單詞。它僅由三個根部組成:против反反對,憲法,貸款單詞,因此沒有其內部構圖和word 。其餘的是否定的否定詞素(光的詞素,否則在動詞中單獨編寫),名詞增強器(-oud Clentemefier( -oul課),名詞到詞語轉換( -Y- ),命令式情緒第二人稱第二人稱複數結束( -й期)。這是很不尋常的,但是發現一些用法,例如,報紙頭條於1991年7月13日,即當前的保加利亞憲法被採用的第二天,引起了很多爭議和辯論,甚至是醜聞。
凝集和凝集的單詞的其他用途
凝集和凝聚的單詞來自拉丁語groglutinare ,“粘合在一起”。在語言學上,這些話自1836年以來就一直在使用,當時威廉·馮·洪堡(Wilhelm von Humboldt )死後出版的作品überdie verschiedenheit des menschlichen sprachbaues und ihreneinflußaufauf auf die geistige geistige geistige entwicklung entwicklung entwicklung des Menschengeschlechts [lit lite and the Lightens and the Lights and the Lights and and and and and and and and。關於人類的心理髮展]將語言的劃分引入了隔離,拐點,凝結和融合。
特別是在一些較舊的文獻中,凝集性有時被用作合成的同義詞。在這種情況下,它包含了我們所謂的凝集性和拐點語言,它是分析或隔離的反義詞。除了清晰的詞源動機(畢竟,彎曲結尾也被“粘在莖上”)外,這種更一般的用法是合理的,這是這樣的事實,即凝集性和拐點語言之間的區別並不是一種敏銳的語言,正如我們已經看到的那樣。
在19世紀下半葉,許多語言學家認為語言演變的自然循環:隔離類型的功能詞被粘在其頭詞上,以使語言變得凝聚在一起;後來的形態通過語音過程融合在一起,而出現的是一種變形語言。最終,拐點結局通常會在快速語音中刪除,省略了拐點,語言可以追溯到隔離類型。
Lord(1960)的以下段落很好地證明了凝集一詞可能具有的整個含義。
(凝集...)由兩個或多個術語的焊接組成,不斷以義詞群的形式出現在一個單元中,這是很難或不可能分析的。
凝集採取各種形式。在法語中,焊接變成完全融合。拉丁語Hanc Horam “此時”是法國副詞單位。古老的法國tous雜誌變成了toujours , dèsjà (“現在”) déjà (“已經”)。另一方面,除了罕見的組合(例如上帝與您同在的罕見組合)外,來自威爾士堅果的核桃,窗戶(在Vindauga上)的窗戶外,構成凝集的形式的單位保留了其身份。像黑鳥和牛皮者這樣的詞是不同的魚。他們保留單位,但最終的含義並不能從這些單位中完全推論。 (...)
索斯更喜歡區分複合詞和真正合成或凝集的組合。
自然語言處理中的凝集性語言
在自然語言處理中,具有豐富形態學的語言與隔離語言完全不同。在凝集性語言的情況下,主要障礙在於可以從單個根部獲得的大量單詞形式。正如我們已經看到的那樣,這些單詞形式的產生在某種程度上因特定語言的語音過程而變得有些複雜。儘管在芬蘭語中,形式和句法功能之間的基本一對一關係並未破壞,但權威機構芬蘭語言學院( Kotus )列出了51種芬蘭名詞,形容詞,代詞和數字的偏衰類型。
識別單詞形式會出現更多問題。現代語言方法主要基於對語料庫的剝削;但是,當可能的單詞形式數量很大時,任何語料庫都必須僅包含其中一小部分。 Hajič(2010)聲稱,如今的計算機空間和功率是如此便宜,以至於所有可能的單詞表格都可以事先生成並以詞典形式存儲,列出了所有給定單詞形式的所有可能解釋。 (必須優化詞典的數據結構,以便搜索快速有效。)根據Hajič的說法,這是這些單詞形式的歧義很困難(對於歧義性含糊不清的柔性語言而言,這是更高的。語言)。
其他作者沒有共享Hajič的觀點,即空間不是問題,而不是在詞典中列出所有可能的單詞形式,而是通過模塊來實施,這些模塊試圖將表面形式分解為一系列按順序允許的順序,語言。這種分析的問題是凝集性語言典型的大量詞素邊界。一個拐點語言的單詞只有一個結尾,因此單詞可能將單詞的劃分數量與底座結束僅與單詞的長度線性。在一種凝結的語言中,在單詞的末尾加入了幾個後綴,必須檢查以保持一致性的不同部門的數量很大。例如,在開發阿拉伯語系統時使用了這種方法,在該系統中,當文章,介詞和連詞與以下單詞與以下單詞相結合時,就會發生凝聚,並且代詞與前面的單詞一起。參見Grefenstette等。 (2005)有關更多詳細信息。