語料庫語言學
語料庫語言學是對一種語言的研究,因為該語言在其文本語料庫(複數語料庫)中表達,即“現實世界”文本的主體。語料庫語言學提出,對語言的可靠分析對於在該領域收集的語料庫(該語言的自然背景(“ Realia”))更為可行,並且最少的實驗干擾。大量的文本集可以使語言學對語言概念進行定量分析,否則很難量化。
Text-Corpus方法使用以任何自然語言編寫的文本主體來得出控制該語言的一組抽象規則。這些結果可用於探索經過類似分析的主題語言與其他語言之間的關係。第一個這樣的語料庫是從源文本中手動派生的,但是現在工作已經自動化了。
Corpora不僅用於語言學研究,還用於編譯詞典(從1969年的《美國遺產詞典》開始)和語法指南,例如1985年出版的英語語法。
該領域的專家對語料庫的註釋有不同的看法。這些觀點範圍從提倡最少註釋的約翰·麥克拉迪·辛克萊(John McHardy Sinclair)為自己說話的文本,到對英語用法團隊(倫敦大學學院)的調查,他們主張註釋是通過嚴格的錄音允許更大的語言理解。
歷史
語法描述最早的一些努力至少部分基於具有特殊宗教或文化意義的語料庫。例如, prātiśākhya文學描述了梵文中發現的梵文的聲音模式,而帕尼尼(Pāṇini )的古典梵語語法至少部分基於對同一語料庫的分析。同樣,早期的阿拉伯語法學家特別關注古蘭經的語言。在西歐的傳統中,學者們準備了一致性,以詳細研究聖經和其他規範文本的語言。
英文語料庫
現代語料庫語言學中的地標是1967年對當今美國英語的計算分析的出版。亨利·庫切拉(HenryKu匯一百萬個美國英語單詞,從各種來源中精心挑選。布朗的語料庫是第一個用於語言研究的計算機語料庫。 Kučera和Francis對Brown語料庫進行了各種計算分析,然後將語言學,語言教學,心理學,統計學和社會學的要素結合在一起,以創建豐富而多樣化的作品。 1960年,他介紹了英語用法調查的倫道夫·奎克(Randolph Quirk)的另一個關鍵出版物。 Quirk的語料庫是第一個建造的現代語料庫,目的是代表整個語言。
此後不久,波士頓出版商霍頓·米夫林(Houghton-Mifflin)與庫切拉(Kučera)聯繫,為其新的美國遺產詞典提供了百萬字的三線引文基礎,這是第一個使用語料庫語言學編輯的詞典。 AHD採取了將規定元素(應如何使用語言)與描述性信息(實際使用的方式)相結合的創新步驟。
其他出版商也效仿。英國出版商Collins的Cobuild單語學習者的詞典,專為用戶學習英語作為外語而設計,是使用英語銀行編輯的。對英語使用語料庫的調查用於開發最重要的基於語料庫的語法之一,該語法由Quirk等人撰寫。並於1985年出版,作為英語的綜合語法。
棕色語料庫還催生了許多類似結構化的語料庫: Lob語料庫(1960年代英語英語),Kolhapur(印度英語),惠靈頓,惠靈頓(新西蘭英語),澳大利亞英語語料庫(澳大利亞英語),皺眉語料庫(1990年代初期)美國英語)和《 Flob語料庫》(1990年代英國英語)。其他語料庫代表了許多語言,品種和模式,包括國際英語語料庫和英國國家語料庫,這是一系列口頭和書面文本的1億個單詞,由出版商,大學,大學(大學)創建(1990年代)(牛津和蘭開斯特)和大英圖書館。對於當代美國英語,工作已經停滯在美國國家語料庫上,但是現在可以通過網絡界面獲得400多百萬個當代美國英語語料庫(1990年至今)。
蒙特利爾法國項目於1971年建造了第一個計算機化的口語語言,其中包含100萬個單詞,這啟發了Shana Poplack在渥太華赫爾地區的法語大量法語。
多語言語料庫
在1990年代,自然語言編程(NLP)的統計方法的許多顯著早期成功發生在機器翻譯領域,尤其是由於IBM研究工作。這些系統能夠利用加拿大議會和歐盟製作的現有多語言文本語料庫,這是由於法律呼籲將所有政府訴訟轉換為相應政府系統的所有官方語言。
非歐洲語言也有語料庫。例如,日本國家日本語言與語言學研究所已建立了許多口語和書面日語語料庫。還使用視頻數據創建了手語中心語料庫。
古代語言語料庫
除了這些生活語言的語料庫外,計算機化的語料庫還由古代語言的文本收集製成。一個例子是希伯來聖經的Andersen -Forbes數據庫,自1970年代以來開發,其中每個子句都使用代表多達七個級別的語法的圖進行解析,並且每個段都標記為七個信息字段。古蘭經阿拉伯語料庫是古蘭經古典阿拉伯語的註釋語料庫。這是一個最新的項目,具有多層註釋,包括形態分割,言論部分標記和使用依賴性語法的句法分析。梵語數字語料庫(DCS)是“梵文文本的Sandhi-Split語料庫,具有完整的形態學和詞彙分析……專為梵語語言學和語言學的文本歷史研究而設計。”
來自特定領域的語料庫
除了純粹的語言探究外,研究人員還開始將語料庫語言學應用於其他學術和專業領域,例如新興的法律和語料庫語言學的子學分,該領域旨在使用語料庫數據和工具來理解法律文本。 DBLP Discovery數據集集中在計算機科學上,其中包含帶有感知元數據的相關計算機科學出版物,例如作者分支機構,引用或研究領域。 NLP Scholar引入了一個更重點的數據集,NLP學者是ACL選集和Google Scholar Metadata的論文組合。語料庫還可以幫助翻譯工作或教外語。
方法
語料庫語言學已經生成了許多研究方法,這些方法試圖追踪從數據到理論的路徑。 Wallis and Nelson(2001)首先介紹了他們所謂的3a觀點:註釋,抽象和分析。
- 註釋包括將方案應用於文本。註釋可能包括結構標記,言論部分標記,解析和許多其他表示。
- 抽象由方案中術語的翻譯(映射)組成,以理論動機或數據集中的術語組成。抽象通常包括語言學家指導的搜索,但可能包括EG,針對解析器的規則學習。
- 分析包括數據集的統計探測,操縱和普遍性。分析可能包括統計評估,規則基礎的優化或知識發現方法。
如今,大多數詞彙語料庫都是詞性標記的一部分(POS標籤)。但是,即使是與“未註釋的純文本”一起工作的語料庫語言學家,不可避免地會採用某種方法來隔離明顯的術語。在這種情況下,註釋和抽像在詞彙搜索中合併。
發布註釋語料庫的優點是其他用戶可以在語料庫(通過語料庫管理者)上執行實驗。具有其他興趣和不同觀點的語言學家比發起人可以利用這項工作。通過共享數據,語料庫語言學家能夠將語料庫視為語言辯論的一個根源和進一步的研究。