泰米爾人所有字符編碼
泰米爾人所有字符編碼(TACE16)是16位Unicode-基於字符編碼方案為了泰米爾語.[1][2]
此編碼不在網上使用,一些編碼已用於泰米爾語,但是Unicode, IE。UTF-8在網絡上使用100.0%。
鍵盤驅動程序和字體
此編碼方案的鍵盤驅動程序可在泰米爾虛擬大學網站[3]免費。[4]它用泰米爾99號和泰米爾打字機鍵盤佈局這是由泰米爾納德邦政府批准的,並將輸入擊鍵映射到其相應的TACE16計劃特徵。[2]要讀取使用TACE16方案創建的文件,該編碼方案的相應Unicode泰米爾字體也可以在同一網站上提供。[3][4]這些字體不僅具有tace16格式字符的字形映射,而且還具有當前的Unicode編碼對彼此而言ASCII和泰米爾人的角色,以便他們可以為讀取使用使用的現有文件提供向後兼容性目前的泰米爾語語言編碼方案.
字符集
該編碼方案的所有字符都位於私人使用區域的基本的多語言平面的Unicode通用角色集.
輔音→ 元音 ↓ | E10 | E18 | E1a | E1F | E20 | E21 | E22 | E23 | E24 | E25 | E26 | E27 | E28 | E29 | E2A | E2B | E2C | E2D | E2e | E2F | E30 | E31 | E32 | E33 | E34 | E35 | E36 | E37 | E38 | E39 | E3A | E3B | E3C | E3D | E3E | E3F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ௳ | ௦ | அரைக்கால் | ் | க் | ங் | ச் | ஞ் | ட் | ண் | த் | ந் | ப் | ம் | ய் | ர் | ல் | வ் | ழ் | ள் | ற் | ன் | ||||||||||||||
1 | ௴ | ௧ | கால் | அ | க | ங | ச | ஞ | ட | ண | த | ந | ப | ம | ய | ர | ல | வ | ழ | ள | ற | ன | ||||||||||||||
2 | ௵ | ௨ | அரை | ா | ஆ | கா | ஙா | சா | ஞா | டா | ணா | தா | நா | பா | மா | யா | ரா | லா | வா | ழா | ளா | றா | னா | |||||||||||||
3 | ௶ | ௩ | முக்கால் | ி | இ | கி | ஙி | சி | ஞி | டி | ணி | தி | நி | பி | மி | யி | ரி | லி | வி | ழி | ளி | றி | னி | |||||||||||||
4 | ௷ | ௪ | அரைவீசம் | ீ | ஈ | கீ | ஙீ | சீ | ஞீ | டீ | ணீ | தீ | நீ | பீ | மீ | யீ | ரீ | லீ | வீ | ழீ | ளீ | றீ | னீ | |||||||||||||
5 | ௸ | ௫ | வீசம் | ு | உ | கு | ஙு | சு | ஞு | டு | ணு | து | நு | பு | மு | யு | ரு | லு | வு | ழு | ளு | று | னு | |||||||||||||
6 | ௹ | ௬ | மூவீசம் | ூ | ஊ | கூ | ஙூ | சூ | ஞூ | டூ | ணூ | தூ | நூ | பூ | மூ | யூ | ரூ | லூ | வூ | ழூ | ளூ | றூ | னூ | |||||||||||||
7 | ௺ | ௭ | அரைமா | ெ | எ | கெ | ஙெ | செ | ஞெ | டெ | ணெ | தெ | நெ | பெ | மெ | யெ | ரெ | லெ | வெ | ழெ | ளெ | றெ | னெ | |||||||||||||
8 | பௌர்ணமி | ௮ | ஒருமா | ே | ஏ | கே | ஙே | சே | ஞே | டே | ணே | தே | நே | பே | மே | யே | ரே | லே | வே | ழே | ளே | றே | னே | |||||||||||||
9 | அமாவாசை | ௯ | இரண்டுமா | ை | ஐ | கை | ஙை | சை | ஞை | டை | ணை | தை | நை | பை | மை | யை | ரை | லை | வை | ழை | ளை | றை | னை | |||||||||||||
一個 | கார்த்திகை | ௰ | மும்மா | ொ | ஒ | கொ | ஙொ | சொ | ஞொ | டொ | ணொ | தொ | நொ | பொ | மொ | யொ | ரொ | லொ | வொ | ழொ | ளொ | றொ | னொ | |||||||||||||
B | ராஜ | ௱ | நாலுமா | ோ | ஓ | கோ | ஙோ | சோ | ஞோ | டோ | ணோ | தோ | நோ | போ | மோ | யோ | ரோ | லோ | வோ | ழோ | ளோ | றோ | னோ | |||||||||||||
C | ௐ | ௲ | முந்திரி | ௌ | ஔ | கௌ | ஙௌ | சௌ | ஞௌ | டௌ | ணௌ | தௌ | நௌ | பௌ | மௌ | யௌ | ரௌ | லௌ | வௌ | ழௌ | ளௌ | றௌ | னௌ | |||||||||||||
d | அரைக்காணி | ஃ | ||||||||||||||||||||||||||||||||||
e | காணி | |||||||||||||||||||||||||||||||||||
F | முக்காணி |
筆記: | |
---|---|
新添加。不存在Unicode_v6.3。 | |
分配進行研究(NLP) | |
供將來使用 |
TACE16分析泰米爾語的當前Unicode標準
TACE16的分析目前的泰米爾語言標準:
泰米爾語的當前Unicode的問題
這目前的泰米爾語標準由於以下原因,被認為不足以在計算機中有效使用泰米爾語:[1]
- Unicode代碼泰米爾語在247個泰米爾語中,只有31個代碼位置。這31個字符包括12個元音,18個Agara-uyirmey,一個Aytham,不包括5個Grantha Agara-uyirmey,這些Grantha Agara-uyirmey也在Unicode Tamil提供了代碼空間。其他泰米爾人字符必須使用單獨的軟件呈現。目前的Unicode泰米爾語中只有10%的泰米爾人字符提供了代碼空間。在一般文本交換中使用的泰米爾人字符中有90%未提供代碼空間。
- 現在遺漏的uyir-meysUnicode泰米爾語是簡單的字符,就像a,b,c,d一樣,是英語的字符。uyir-meys不是字形,也不是綁紮,也不是unicode中假設的字符。KA,KA,KI,KI等是泰米爾語的角色。
- 在任何普通的泰米爾文本中,元音輔音(Uyir-Meys)形式為64%至70%;元音(uyir)形式為5%至6%,輔音(MEYS)表格25%至30%。將高頻字母(如元音呼聲)分解為字形效率高。
- 這種類型的編碼要求渲染引擎在計算時實現角色,不適用於泰米爾語中泰米爾語,搜索和分類以及自然語言處理(NLP)等應用程序。它消耗了額外的時間和空間,使計算過程高效。對於此類應用程序,需要像英語一樣在編碼中具有代碼位置的所有字符。
- 此編碼是基於iscii(1988),因此,字符不在序列的自然順序上。它需要一種複雜的整理算法來以自然順序排列它們。
- 它使用多個代碼點渲染單個字符。多個代碼點會導致安全漏洞,模棱兩可的組合,並需要使用歸一化。
- 簡單計數字母,排序,搜索效率低下。
- 它需要ZWJ/ZWNJ類型隱藏字符。
- 它需要例外表以防止代碼點的非法組合。
- Unicode指示塊建立在巨大,複雜,容易出錯的建築物上,基於未構建的編碼。
- 第一個代碼點說:“泰米爾語簽名Anusvara-未在泰米爾語中使用”。
- 假設整理與Devanagari相同 - 錯誤地使用模棱兩可的編碼來呈現相同的特徵。
- 它編碼了23個元音輔音(23個輔音 +ü),並將其稱為輔音,反對泰米爾語法。
- 對語音/文本到語音的語音不自然。
- 效率低下的存儲,傳輸和檢索(例如,文件讀寫,互聯網等)。
- 複雜的處理阻礙了發展。
- 需要歸一化以進行字符串比較。
- 字符序列可能對應於單個字形,即ச +ெ◌ +◌ா=ெசா。字符不是圖形。根據Unicode,ெசா是素。但是ச,ெ◌,◌ா是字符。
- 需要動態組成 - 一個文本元素編碼為基本字符的序列,然後是一個或多個組合標記。
- 有兩種渲染元音輔音的方法。這導致渲染角色的歧義。
- 這當前的Unicode不有效解析。例如,這個名字திருவள்ளுவர்看起來應該有七個字母。但是,根據Unicode的說法,此名稱具有十二個字符:தத◌ுளள◌ு◌◌◌◌
- 為了正確計算此名稱的字母,專家開發人員必須編寫一個複雜的程序,並在泰米爾計算機會議中將其作為技術論文介紹。要比較,用英語單詞計數字母是一個開始的練習。觸發了此類問題,因為一個簡單的腳本(例如泰米爾語)被Unicode視為複雜的腳本。例如在Python庫中開放式塔米爾,[5]它使用泰米爾語的當前Unicode標準,以計算給定文本中的泰米爾語數量tamil.utf8.get_letters首先用於將文本解析到列表中,然後將列表的長度作為字母數量返回。[6]當將諸如泰米爾語之類的簡單腳本視為複雜腳本時,需要這種複雜的編程邏輯或額外的框架要求。
- Unicode標準策略是僅編碼字符,而不是字形。然而,[7]因為Unicode泰米爾標準包括元音符號作為組合字符。這些標誌對泰米爾語讀者沒有意義,將顯示出通過檢測它們之間的空白和基本字符的角色塑形引擎的顯示。因此,Unicode將虛線圓引入了泰米爾語。
- Unicode泰米爾語在許多平台上沒有完全支持,主要是因為泰米爾語被視為需要復雜處理的複雜腳本。
- 由於上述所有效率上的所有效率都比需要的機器消耗了更多的處理器處理器,因此它將通過處理Unicode Tamil的機器增加總體壽命使用(電力)。例如,在處理單個泰米爾語字符Ki(கீ)時,它必須處理輔音和元音修飾符,這使處理器的處理週期的消耗翻了一番。
對Unicode Tamil的TACE16分析
以下數據提供了當前分析的比較Unicode編碼泰米爾語vs tace16關於電子政務和瀏覽:[1]
- TACE16高效Unicode泰米爾語在數據存儲應用程序的情況下,約為5.46%至11.94%。
- TACE16高效Unicode泰米爾語在分類索引數據的情況下,約為18.69%至22.99%。
- TACE16高效Unicode泰米爾語當整個數據均為泰米爾語時,約為25.39%。在使用新TACE16中使用代碼空間值的同時,默認排列序列(二進制)不符合泰米爾語詞典順序。在新的Tace16中,一些Uyir-Meys(Agara-uyirmeys)優先於元音和其他Uyirmeys,元音和Agarauyir-Meys在0B80-0B8F塊中,其他Uyir-Meys在0800至0800fff中。因此,排序Unicode數據看起來比TACE16數據更好。
- TACE16在整理上更快Unicode泰米爾語約為0.31%至16.96%。
- TACE16數據上的索引創建比Unicode快36.7%。
- 要在索引字段上進行完整的密鑰搜索,TACE16的性能比Unicode泰米爾語高達24.07%。在非索引字段的情況下,TACE16的性能優於Unicode泰米爾語高達20.9%。
- TACE16的靜態泰米爾數據的渲染很好。
TACE16比Unicode Tamil的優點
TACE16字符編碼方案不僅克服了當前的所有問題Unicode編碼標準為了泰米爾語上面提到的,但在處理時間和處理空間都提供了重大的性能改進。該系統具有以下其他優勢:[1]
- 該編碼是通用的,因為它包含了一般泰米爾文本互換中發現的所有字符。
- 根據代碼值是順序的。
- 編碼是明確的。
- 任何給定的代碼點總是代表相同的字符。
- 沒有歧義目前的Unicode泰米爾語.
Unicode泰米爾語編碼有很多問題,並且提出了重新詞尾泰米爾語的建議。[8]這被Unicode拒絕了,他說重新編碼將是有害的,並且沒有令人信服的證據Unicode Unicode泰米爾語編碼不好。[9]
該系統在計算機編程中具有以下優勢:
- 可容納泰米爾人字符及其處理的軟件將簡化。
- 排序和搜索非常簡單。
- 對於機器,TACE16花費的CPU週期更少(因此使用的電力少)Unicode泰米爾語.
- TACE16允許根據泰米爾語法進行編程,這在Unicode泰米爾語(需要額外的框架開發)。
- 編碼非常有效地解析。通過簡單的算術操作可以解析字符。在計算機編程中,第二種方法在大型角色集的性能方面非常有效。另外,這些方法遵循基本的泰米爾語法輔音+元音=元音諧音(uyirmei)沒有遵循Unicode泰米爾語.
方法1(通過簡單的算術操作):க் +இ=கிE210(க்) + e203(இ) - E200(常數)= E213(கி)方法2:க்(e210) +இ(e203)=கி(e213)e210(க்)|(e203(இ)&000F(常數))= e213(கி)
- 將元音共和國(uyirmei)角色分為相應的元音和輔音非常有效。在大數據上的性能方面,這非常有效。
/ *獲取元音 */E213(கி)&'F20F(持續的)'=E203(இ)/ *獲得輔音 */E213(கி)&'FFF0(持續的)'=E210(க்)
- 找到一個字符是元音,輔音或元音諧音(uyirmei)還是數字非常有效。
/* | - 位或*& - 位和*! - 鑽頭不是* ^ - 位XOR* || - 條件或* && - 條件和*/c=這TACE16編碼為了一個泰米爾語特點/ *檢查字符是否為元音 *// *方法1 */(((((c> =E201)&&(c<=E20C))==真的// =>元音/*方法2-如果代碼位置E200,E20E,E20F未用於任何其他目的*/(((((((c&'E20F(持續的)')==c)&&(c!=E20D))==真的// =>元音(((((!(((((c&'E20F(持續的)')^c))&&(c!=E20D))==真的// =>元音/ *檢查字符是輔音還是元音諧音(uyirmei) */x=(c&'000F(持續的)')//如果c是元音或元音符合元音,則x =每個元音的唯一數字從1開始(((((((c> =E210)&&(c<=E38C))&&(x==0))==真的// =>輔音(((((((c> =E210)&&(c<=E38C))&&(((((x> =1)&&(x<=12)))==真的// =>元音 - 諧音(uyirmei)/ *檢查角色是否為泰米爾人編號 *// *方法1 */(((((c> =E180)&&(c<=E18C))==真的// =>泰米爾語號碼/*方法2*///如果代碼位置E18D-E18F未用於任何其他目的(c&'E18F(持續的)')==c// =>泰米爾語號碼(!(((((c&'E18F(持續的)')^c))==真的// =>泰米爾語號碼//如果代碼位置E18D-E18F用於任何其他目的,則可以使用方法1或以下方法*/(((((!(((((c&'E18F(持續的)')^c))&&(((((c&'000F(持續的)')<=12))==真的// =>泰米爾語號碼
- 將數字轉換為非常容易泰米爾人數字(新的泰米爾編號格式),反之亦然(與Unicode泰米爾語)。
/*要將一個數字轉換為泰米爾語號碼的新格式,反之亦然,直接數字轉換為數字就足夠了。*// *將數字轉換為泰米爾語號碼的新格式 */n=單身的數字數字(0-9)/ *方法1 */(n&'E18F(持續的)')// =>泰米爾語號碼/ *方法2 */(n|'E180(持續的)')// =>泰米爾語號碼/ *將泰米爾編號的新格式轉換為一個數字 */c=單身的數字泰米爾語數字特點(௦-௯)(c&'000F(持續的)')// =>數字
替代主張
開放式塔米爾
這Open-Tamil項目[10]提供許多共同的操作,例如要從Unicode UTF-8編碼的字符串,排序,搜索等提取字母。即使項目聲明泰米爾文本處理的級別1級別不使用TACE16,該項目仍然寫在額外的編程邏輯的頂部,這是當前Unicode所需的泰米爾語的標準。
#!/usr/bin/env Python進口編解碼器進口泰米爾.UTF8作為UTF8和編解碼器.打開('singl','W',編碼='utf-8')作為ff:信件=UTF8.get_letters(u“கூவிளம்என்பதுசீர்”)為了信在信件:ff.寫(信)打印(信)ff.寫('')ff.關()
生成輸出,輸出:கூகூம்ன்பஎன்னர்ர்
也可以看看
- TSCII(泰米爾語腳本代碼用於信息互換)
- Anytafont2UTF8 - 所有泰米爾語編碼/字體映射字符的開源項目。
參考
- ^一個bcd關於TACE16工作隊最終建議的報告
- ^一個b泰米爾納德邦政府為16位編碼開發泰米爾字體和泰米爾語鍵盤驅動程序開發的招標文件(Unicode和Tace16)
- ^一個b“ tamil Virtual Academy”“.
- ^一個b泰米爾納德邦政府的命令(G.O。),鍵盤驅動程序和字體
- ^https://github.com/arcturusannamalai/open-tamil開放式塔米爾
- ^https://ezhillang.wordpress.com/2014/01/26/open-tamil-text-processing-%E0%E0%E89%E89%E0%AEAEB0%B0%AR;E0%AE%95%E0%AF%81%E0%AE%AA%E0%AF%AF%8D%E0%AE%AA%E0%E0%AE%BE%E0%AE%AE%AE%AF%AF%E0%AF%AF%AF%AF%AF%AF%E0%E0%E0%AE%B5%E0%AF%81/tamil.utf8.get_letters
- ^https://ezhillang.wordpress.com/2014/01/26/open-tamil-text-processing-%E0%E0%E89%E89%E0%AEAEB0%B0%AR;E0%AE%95%E0%AF%81%E0%AE%AA%E0%AF%AF%8D%E0%AE%AA%E0%E0%AE%BE%E0%AE%AE%AE%AF%AF%E0%AF%AF%AF%AF%AF%AF%E0%E0%E0%AE%B5%E0%AF%81/[用戶生成的來源]
- ^https://www.unicode.org/l2/l2/l2012/12033-tamil-presentation.pdf[裸露的URL PDF]
- ^“未批准通知的檔案”.
- ^https://pypi.org/project/open-tamil/Open-Tamil項目