詞彙標記框架

語言資源管理詞彙標記框架LMFISO 24613:2008 )是國際標準化ISO/TC37自然語言處理標準(NLP)和機器可讀詞典(MRD)詞典。該範圍是在多語言交流的上下文中與語言資源有關的原則和方法的標準化

目標

LMF的目標是為創建和使用詞彙資源,管理這些資源之間和之間的數據交換提供一個共同的模型,並使大量個人電子資源合併以形成廣泛的全球電子資源。

LMF的單個實例化類型可以包括單語,雙語或多語言詞彙資源。大小的詞典,即簡單和復雜的詞典,用於書面和口語詞彙表示。描述範圍從形態學語法計算語義計算機輔助翻譯。涵蓋的語言不僅限於歐洲語言,而是涵蓋所有自然語言。目標NLP應用程序的範圍不受限制。 LMF能夠代表大多數詞典,包括WordNet ,EDR和假釋詞典。

歷史

過去,詞典標準化是由Genelex,Edr,Eagles,Multext,Parole,Simple和I​​sle等一系列項目研究和開發的。然後, ISO/TC37國家代表團決定解決專門針對NLP和Lexicon代表的標準。 LMF的工作始於2003年夏季,由美國代表團發布的新工作項目提案開始。 2003年秋季,法國代表團發布了專門針對NLP詞典的數據模型的技術主張。 2004年初,ISO/TC37委員會決定與Nicoletta Calzolari( CNR -IRC Italy)作為召集人和Gil Francopoulo(法國Tagmatica)和蒙特·喬治( ANSI USA)組成一個共同的ISO項目。開發LMF的第一步是根據現有詞典的一般特徵設計一個整體框架,並開發出一致的術語來描述這些詞典的組成部分。下一步是一種綜合模型的實際設計,該模型最能詳細地代表所有詞典。由60個專家組成的大型面闆對LMF貢獻了廣泛的要求,其中涵蓋了許多類型的NLP詞典。 LMF的編輯與專家小組緊密合作,以確定最佳解決方案並就LMF的設計達成共識。特別注意形態,以便為處理多種語言的問題提供強大的機制,這些機制被稱為難以處理。在各種ISO技術會議上,已經編寫了13個版本,派遣了(向國家提名的專家)發表評論和討論。經過五年的工作,包括眾多面對面的會議和電子郵件交流,編輯們到達了連貫的UML模型。總之,應將LMF視為NLP詞典領域中最新技術的綜合。

當前階段

ISO編號為24613。LMF規範已於2008年11月17日正式作為國際標準發布。

作為ISO/TC37標準家族的成員之一

ISO/TC37標準目前被詳細闡述為高級規格,並處理單詞分割(ISO 24614),註釋(ISO 24611 AKA MAF,ISO 24612 aka aka aka aka laf,iso 24615 aka aka synaf和iso 24617-1 aka semaf/time )特徵結構(ISO 24610),多媒體容器(ISO 24616 aka MLIF)和詞典(ISO 24613)。這些標準基於專用於常數的低級別規格,即數據類別(ISO 12620的修訂),語言代碼ISO 639 ),腳本代碼ISO 15924 ),國家代碼ISO 3166 )和UNICODEISO 10646 )。

兩個級別的組織與以下共同和簡單的規則形成了一個連貫的標準家族:

  • 高級規範提供了標準化常數裝飾的結構元素;
  • 低水平規格提供標準化常數為元數據。

關鍵標準

語言學常數/女性/或/或/transitive/之類的語言常數未定義在LMF中,而是記錄在數據類別註冊表(DCR)中,該數據類別註冊表(DCR)由ISO/TC37保留為全球資源,符合ISO/IEC 11179-3:2003。這些常數用於裝飾高水平的結構元素。

LMF規範符合對像管理組(OMG)定義的統一建模語言(UML)的建模原理。結構是通過UML類指定的。這些示例是通過UML實例(或對象)圖提出的。

LMF文檔的附件中給出了XML DTD

模型結構

LMF由以下組成部分組成:

  • 核心軟件包是結構骨架,描述了詞彙條目中信息的基本層次結構。
  • 核心軟件包的擴展是在一個框架中表達的,該框架與特定詞彙資源所需的附加組件一起描述了核心組件的重複使用。

擴展是專門用於形態學MRDNLP語法NLP語義NLP多語言符號NLP形態模式多字表達模式和約束表達模式

例子

在下面的示例中,詞彙入口與引理神職人員和兩個拐彎處的神職人員神職人員有關。語言編碼設置為整個詞彙資源。如以下UML實例圖所示,為整個詞典設置了語言值。

元素詞彙資源全球信息詞典詞彙輸入引理單詞形式定義了詞典的結構。它們是在LMF文檔中指定的。相反,語言編碼語言partofspeechcommonnoun書面形式語法數單數複數是數據類別從數據類別註冊中獲取的數據類別。這些標記裝飾了結構。 ISO 639-3的值,神職人員神職人員是普通的字符串。值ENG取自ISO 639-3定義的語言列表。

有了一些其他信息,例如DtdversionFeat ,可以通過以下XML片段表示相同的數據:

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

這個示例很簡單,而LMF可以代表更複雜的語言描述,XML標記相應地複雜。

有關LMF的精選出版物

關於LMF規範的第一個出版物已由ISO批准(本文在2015年成為LREC論文中語言資源和評估會議中第9篇論文):

  • 語言資源和評估LREC-2006/熱那亞:Gil Francopoulo,Monte George,Nicoletta Calzolari,Monica Monachini,Nuria Bel,Mandy Pet,Claudia Soria:詞彙標記框架(LMF)

關於語義表示:

  • gesellschaftfürlinguistische datenverarbeitung gldv-2007/tübingen:Gil Francopoulo,Nuria Bel,Monte George Nicoletta Calzolari,Monica Monachini,Monica Monachini,Mandy Pet,Claudia pet,Claudia soria,Claudia Soria:Lexical Mark框架ISO ISO ISO標準ISO標準NLP LECICICIC NLP LECICICIC STARMANIC STARD

關於非洲語言:

  • 特徵自動機構Naturelles,Marseille,2014年:Mouhamadou Khoule,Mouhamad Ndiankho Thiam,El Hadj Mamadou Nguer:建立基於LMF的Wolof Language Lexicon(Vest la Mise e la Mise en place d'un un Lexique sur lmf la lan la langlangue pour la lang lange pour la langue pour la langue wolof wolof wolof wolof wolof wolof wolof wolof wolof wolof wolof wolof wolof )[法語]

關於亞洲語言:

  • 詞典學,《亞太書》,Springer,2014年:詞彙標記框架:吉爾·弗蘭科普洛(Gil Francopoulo),Chu-Ren Huang:電子詞典的ISO標準及其對亞洲語言的影響doi 10.1007/s40607- 014-014-0006-z

關於歐洲語言:

  • Coling 2010:Verena Henrich,Erhard Hinrichs:ISO標準LMF中的WordNets標準化WordNet-LMF德國人
  • EACL 2012:朱迪思·埃克·科勒(Judith Eckle-Kohler),iryna gurevych:subcat-lmf:啟用用於子分類框架互操作性的標準化格式
  • EACL 2012:Iryna Gurevych,Judith Eckle-Kohler,Silvana Hartmann,Michael Matuschek,Christian M Meyer,Christian Wirth:Uby- Uby-基於LMF的大規模統一統一的詞彙資源。

關於閃族語言:

  • 劍橋大學出版社的自然語言工程雜誌(將於2015年春季出版):Aida Khemakhem,Bilel Gargouri,Abdelmajid Ben Hamadou,Gil Francopoulo:一項大型阿拉伯語詞典的ISO標準建模。
  • 2014年第七屆全球WordNet會議論文集:Nadia BM Karmani,Hsan Soussou,Adel M Alimi:在ISO LMF中為AEB語言構建標準化的WordNet。
  • 研討會論文集:阿拉伯世界內的HLT&NLP,LREC 2008:NOREDDINE LOUKIL,KAIS HADDAR,ABDELMAJID BEN HAMANAMADOU:邁向阿拉伯語動詞的語法詞典。
  • 特徵自動des Langues Naturelles,圖盧茲(法語),2007年:Khemakhem A,Gargouri B,Abdelwahed A,Francopoulo g:Modélisationdes Paradigmes des paradigmes des de flexion des des verbes des verbes arabes arabes arabes arabes selon la norme lase lme lmf-iso 24613。

專門的書

2013年出版了一本書: LMF詞彙標記框架,該框架完全專用於LMF。第一章涉及詞典模型的歷史,第二章是數據模型的正式介紹,第三章涉及與ISO-DCR的數據類別的關係。其他14章涉及科學研究實驗室內的詞典或軍事領域的詞典或系統。這些是WordNet-LMF,Prolmf,Duelme, Uby-LMF ,LG-LMF,Relish,Globalatlas(或Global Atlas)和Wordscape。

相關的科學通信

也可以看看