泰米爾人所有字符編碼

泰米爾人所有字符編碼（TACE16）是16位Unicode-基於字符編碼方案為了泰米爾語.^[1]^[2]

此編碼不在網上使用，一些編碼已用於泰米爾語，但是Unicode， IE。UTF-8在網絡上使用100.0％。

鍵盤驅動程序和字體

此編碼方案的鍵盤驅動程序可在泰米爾虛擬大學網站^[3]免費。^[4]它用泰米爾99號和泰米爾打字機鍵盤佈局這是由泰米爾納德邦政府批准的，並將輸入擊鍵映射到其相應的TACE16計劃特徵。^[2]要讀取使用TACE16方案創建的文件，該編碼方案的相應Unicode泰米爾字體也可以在同一網站上提供。^[3]^[4]這些字體不僅具有tace16格式字符的字形映射，而且還具有當前的Unicode編碼對彼此而言ASCII和泰米爾人的角色，以便他們可以為讀取使用使用的現有文件提供向後兼容性目前的泰米爾語語言編碼方案.

字符集

該編碼方案的所有字符都位於私人使用區域的基本的多語言平面的Unicode 通用角色集.

泰米爾語所有字符編碼（TACE16）字符集
輔音→ 元音 ↓	E10	E18	E1a	E1F	E20	E21	E22	E23	E24	E25	E26	E27	E28	E29	E2A	E2B	E2C	E2D	E2e	E2F	E30	E31	E32
0	௳	௦	அரைக்கால்	்		க்	ங்	ச்	ஞ்	ட்	ண்	த்	ந்	ப்	ம்	ய்	ர்	ல்	வ்	ழ்	ள்	ற்	ன்
1	௴	௧	கால்		அ	க	ங	ச	ஞ	ட	ண	த	ந	ப	ம	ய	ர	ல	வ	ழ	ள	ற	ன
2	௵	௨	அரை	ா	ஆ	கா	ஙா	சா	ஞா	டா	ணா	தா	நா	பா	மா	யா	ரா	லா	வா	ழா	ளா	றா	னா
3	௶	௩	முக்கால்	ி	இ	கி	ஙி	சி	ஞி	டி	ணி	தி	நி	பி	மி	யி	ரி	லி	வி	ழி	ளி	றி	னி
4	௷	௪	அரைவீசம்	ீ	ஈ	கீ	ஙீ	சீ	ஞீ	டீ	ணீ	தீ	நீ	பீ	மீ	யீ	ரீ	லீ	வீ	ழீ	ளீ	றீ	னீ
5	௸	௫	வீசம்	ு	உ	கு	ஙு	சு	ஞு	டு	ணு	து	நு	பு	மு	யு	ரு	லு	வு	ழு	ளு	று	னு
6	௹	௬	மூவீசம்	ூ	ஊ	கூ	ஙூ	சூ	ஞூ	டூ	ணூ	தூ	நூ	பூ	மூ	யூ	ரூ	லூ	வூ	ழூ	ளூ	றூ	னூ
7	௺	௭	அரைமா	ெ	எ	கெ	ஙெ	செ	ஞெ	டெ	ணெ	தெ	நெ	பெ	மெ	யெ	ரெ	லெ	வெ	ழெ	ளெ	றெ	னெ
8	பௌர்ணமி	௮	ஒருமா	ே	ஏ	கே	ஙே	சே	ஞே	டே	ணே	தே	நே	பே	மே	யே	ரே	லே	வே	ழே	ளே	றே	னே
9	அமாவாசை	௯	இரண்டுமா	ை	ஐ	கை	ஙை	சை	ஞை	டை	ணை	தை	நை	பை	மை	யை	ரை	லை	வை	ழை	ளை	றை	னை
一個	கார்த்திகை	௰	மும்மா	ொ	ஒ	கொ	ஙொ	சொ	ஞொ	டொ	ணொ	தொ	நொ	பொ	மொ	யொ	ரொ	லொ	வொ	ழொ	ளொ	றொ	னொ
B	ராஜ	௱	நாலுமா	ோ	ஓ	கோ	ஙோ	சோ	ஞோ	டோ	ணோ	தோ	நோ	போ	மோ	யோ	ரோ	லோ	வோ	ழோ	ளோ	றோ	னோ
C	ௐ	௲	முந்திரி	ௌ	ஔ	கௌ	ஙௌ	சௌ	ஞௌ	டௌ	ணௌ	தௌ	நௌ	பௌ	மௌ	யௌ	ரௌ	லௌ	வௌ	ழௌ	ளௌ	றௌ	னௌ
d			அரைக்காணி		ஃ
e			காணி
F			முக்காணி

筆記：
	新添加。不存在Unicode_v6.3。
	分配進行研究（NLP）
	供將來使用

TACE16分析泰米爾語的當前Unicode標準

TACE16的分析目前的泰米爾語言標準：

泰米爾語的當前Unicode的問題

這目前的泰米爾語標準由於以下原因，被認為不足以在計算機中有效使用泰米爾語：^[1]

Unicode代碼泰米爾語在247個泰米爾語中，只有31個代碼位置。這31個字符包括12個元音，18個Agara-uyirmey，一個Aytham，不包括5個Grantha Agara-uyirmey，這些Grantha Agara-uyirmey也在Unicode Tamil提供了代碼空間。其他泰米爾人字符必須使用單獨的軟件呈現。目前的Unicode泰米爾語中只有10％的泰米爾人字符提供了代碼空間。在一般文本交換中使用的泰米爾人字符中有90％未提供代碼空間。
現在遺漏的uyir-meysUnicode泰米爾語是簡單的字符，就像a，b，c，d一樣，是英語的字符。uyir-meys不是字形，也不是綁紮，也不是unicode中假設的字符。KA，KA，KI，KI等是泰米爾語的角色。
在任何普通的泰米爾文本中，元音輔音（Uyir-Meys）形式為64％至70％；元音（uyir）形式為5％至6％，輔音（MEYS）表格25％至30％。將高頻字母（如元音呼聲）分解為字形效率高。
這種類型的編碼要求渲染引擎在計算時實現角色，不適用於泰米爾語中泰米爾語，搜索和分類以及自然語言處理（NLP）等應用程序。它消耗了額外的時間和空間，使計算過程高效。對於此類應用程序，需要像英語一樣在編碼中具有代碼位置的所有字符。
此編碼是基於iscii（1988），因此，字符不在序列的自然順序上。它需要一種複雜的整理算法來以自然順序排列它們。
它使用多個代碼點渲染單個字符。多個代碼點會導致安全漏洞，模棱兩可的組合，並需要使用歸一化。
簡單計數字母，排序，搜索效率低下。
它需要ZWJ/ZWNJ類型隱藏字符。
它需要例外表以防止代碼點的非法組合。
Unicode指示塊建立在巨大，複雜，容易出錯的建築物上，基於未構建的編碼。
第一個代碼點說：“泰米爾語簽名Anusvara-未在泰米爾語中使用”。
假設整理與Devanagari相同 - 錯誤地使用模棱兩可的編碼來呈現相同的特徵。
它編碼了23個元音輔音（23個輔音 +ü），並將其稱為輔音，反對泰米爾語法。
對語音/文本到語音的語音不自然。
效率低下的存儲，傳輸和檢索（例如，文件讀寫，互聯網等）。
複雜的處理阻礙了發展。
需要歸一化以進行字符串比較。
字符序列可能對應於單個字形，即ச +ெ◌ +◌ா=ெசா。字符不是圖形。根據Unicode，ெசா是素。但是ச，ெ◌，◌ா是字符。
需要動態組成 - 一個文本元素編碼為基本字符的序列，然後是一個或多個組合標記。
有兩種渲染元音輔音的方法。這導致渲染角色的歧義。
這當前的Unicode不有效解析。例如，這個名字திருவள்ளுவர்看起來應該有七個字母。但是，根據Unicode的說法，此名稱具有十二個字符：தத◌ுளள◌ு◌◌◌◌
為了正確計算此名稱的字母，專家開發人員必須編寫一個複雜的程序，並在泰米爾計算機會議中將其作為技術論文介紹。要比較，用英語單詞計數字母是一個開始的練習。觸發了此類問題，因為一個簡單的腳本（例如泰米爾語）被Unicode視為複雜的腳本。例如在Python庫中開放式塔米爾，^[5]它使用泰米爾語的當前Unicode標準，以計算給定文本中的泰米爾語數量tamil.utf8.get_letters首先用於將文本解析到列表中，然後將列表的長度作為字母數量返回。^[6]當將諸如泰米爾語之類的簡單腳本視為複雜腳本時，需要這種複雜的編程邏輯或額外的框架要求。
Unicode標準策略是僅編碼字符，而不是字形。然而，^[7]因為Unicode泰米爾標準包括元音符號作為組合字符。這些標誌對泰米爾語讀者沒有意義，將顯示出通過檢測它們之間的空白和基本字符的角色塑形引擎的顯示。因此，Unicode將虛線圓引入了泰米爾語。
Unicode泰米爾語在許多平台上沒有完全支持，主要是因為泰米爾語被視為需要復雜處理的複雜腳本。
由於上述所有效率上的所有效率都比需要的機器消耗了更多的處理器處理器，因此它將通過處理Unicode Tamil的機器增加總體壽命使用（電力）。例如，在處理單個泰米爾語字符Ki（கீ）時，它必須處理輔音和元音修飾符，這使處理器的處理週期的消耗翻了一番。

對Unicode Tamil的TACE16分析

以下數據提供了當前分析的比較Unicode編碼泰米爾語vs tace16關於電子政務和瀏覽：^[1]

TACE16高效Unicode泰米爾語在數據存儲應用程序的情況下，約為5.46％至11.94％。
TACE16高效Unicode泰米爾語在分類索引數據的情況下，約為18.69％至22.99％。
TACE16高效Unicode泰米爾語當整個數據均為泰米爾語時，約為25.39％。在使用新TACE16中使用代碼空間值的同時，默認排列序列（二進制）不符合泰米爾語詞典順序。在新的Tace16中，一些Uyir-Meys（Agara-uyirmeys）優先於元音和其他Uyirmeys，元音和Agarauyir-Meys在0B80-0B8F塊中，其他Uyir-Meys在0800至0800fff中。因此，排序Unicode數據看起來比TACE16數據更好。
TACE16在整理上更快Unicode泰米爾語約為0.31％至16.96％。
TACE16數據上的索引創建比Unicode快36.7％。
要在索引字段上進行完整的密鑰搜索，TACE16的性能比Unicode泰米爾語高達24.07％。在非索引字段的情況下，TACE16的性能優於Unicode泰米爾語高達20.9％。
TACE16的靜態泰米爾數據的渲染很好。

TACE16比Unicode Tamil的優點

TACE16字符編碼方案不僅克服了當前的所有問題Unicode編碼標準為了泰米爾語上面提到的，但在處理時間和處理空間都提供了重大的性能改進。該系統具有以下其他優勢：^[1]

該編碼是通用的，因為它包含了一般泰米爾文本互換中發現的所有字符。
根據代碼值是順序的。
編碼是明確的。
任何給定的代碼點總是代表相同的字符。
沒有歧義目前的Unicode泰米爾語.

Unicode泰米爾語編碼有很多問題，並且提出了重新詞尾泰米爾語的建議。^[8]這被Unicode拒絕了，他說重新編碼將是有害的，並且沒有令人信服的證據Unicode Unicode泰米爾語編碼不好。^[9]

該系統在計算機編程中具有以下優勢：

可容納泰米爾人字符及其處理的軟件將簡化。
排序和搜索非常簡單。
對於機器，TACE16花費的CPU週期更少（因此使用的電力少）Unicode泰米爾語.
TACE16允許根據泰米爾語法進行編程，這在Unicode泰米爾語（需要額外的框架開發）。
編碼非常有效地解析。通過簡單的算術操作可以解析字符。在計算機編程中，第二種方法在大型角色集的性能方面非常有效。另外，這些方法遵循基本的泰米爾語法輔音+元音=元音諧音（uyirmei）沒有遵循Unicode泰米爾語.

方法1（通過簡單的算術操作）：க் +இ=கிE210（க்） + e203（இ） - E200（常數）= E213（கி）方法2：க்（e210） +இ（e203）=கி（e213）e210（க்）|（e203（இ）＆000F（常數））= e213（கி）

將元音共和國（uyirmei）角色分為相應的元音和輔音非常有效。在大數據上的性能方面，這非常有效。

/ *獲取元音 */E213（கி）&'F20F（持續的）'=E203（இ）/ *獲得輔音 */E213（கி）&'FFF0（持續的）'=E210（க்）

找到一個字符是元音，輔音或元音諧音（uyirmei）還是數字非常有效。

/* | - 位或*＆ - 位和*！ - 鑽頭不是* ^  - 位XOR* ||  - 條件或* &&  - 條件和*/c=這TACE16編碼為了一個泰米爾語特點/ *檢查字符是否為元音 *// *方法1 */（（（（（c> =E201）&&（c<=E20C））==真的// =>元音/*方法2-如果代碼位置E200，E20E，E20F未用於任何其他目的*/（（（（（（（c&'E20F（持續的）'）==c）&&（c！=E20D））==真的// =>元音（（（（（！（（（（（c&'E20F（持續的）'）^c））&&（c！=E20D））==真的// =>元音/ *檢查字符是輔音還是元音諧音（uyirmei） */x=（c&'000F（持續的）'）//如果c是元音或元音符合元音，則x =每個元音的唯一數字從1開始（（（（（（（c> =E210）&&（c<=E38C））&&（x==0））==真的// =>輔音（（（（（（（c> =E210）&&（c<=E38C））&&（（（（（x> =1）&&（x<=12）））==真的// =>元音 - 諧音（uyirmei）/ *檢查角色是否為泰米爾人編號 *// *方法1 */（（（（（c> =E180）&&（c<=E18C））==真的// =>泰米爾語號碼/*方法2*///如果代碼位置E18D-E18F未用於任何其他目的（c&'E18F（持續的）'）==c// =>泰米爾語號碼（！（（（（（c&'E18F（持續的）'）^c））==真的// =>泰米爾語號碼//如果代碼位置E18D-E18F用於任何其他目的，則可以使用方法1或以下方法*/（（（（（！（（（（（c&'E18F（持續的）'）^c））&&（（（（（c&'000F（持續的）'）<=12））==真的// =>泰米爾語號碼

將數字轉換為非常容易泰米爾人數字（新的泰米爾編號格式），反之亦然（與Unicode泰米爾語）。

/*要將一個數字轉換為泰米爾語號碼的新格式，反之亦然，直接數字轉換為數字就足夠了。*// *將數字轉換為泰米爾語號碼的新格式 */n=單身的數字數字（0-9）/ *方法1 */（n&'E18F（持續的）'）// =>泰米爾語號碼/ *方法2 */（n|'E180（持續的）'）// =>泰米爾語號碼/ *將泰米爾編號的新格式轉換為一個數字 */c=單身的數字泰米爾語數字特點（௦-௯）（c&'000F（持續的）'）// =>數字

替代主張

開放式塔米爾

這Open-Tamil項目^[10]提供許多共同的操作，例如要從Unicode UTF-8編碼的字符串，排序，搜索等提取字母。即使項目聲明泰米爾文本處理的級別1級別不使用TACE16，該項目仍然寫在額外的編程邏輯的頂部，這是當前Unicode所需的泰米爾語的標準。

＃！/usr/bin/env Python進口編解碼器進口泰米爾.UTF8作為UTF8和編解碼器.打開（'singl'，'W'，編碼='utf-8'）作為ff：信件=UTF8.get_letters（u“கூவிளம்என்பதுசீர்”）為了信在信件：ff.寫（信）打印（信）ff.寫（''）ff.關（）

生成輸出，輸出：கூகூம்ன்பஎன்னர்ர்

也可以看看

TSCII（泰米爾語腳本代碼用於信息互換）
Anytafont2UTF8 - 所有泰米爾語編碼/字體映射字符的開源項目。

參考

[TACE16Report-1] 一個 ^b ^c ^d關於TACE16工作隊最終建議的報告

[TNGovernmentTenderDocument-2] 一個 ^b泰米爾納德邦政府為16位編碼開發泰米爾字體和泰米爾語鍵盤驅動程序開發的招標文件（Unicode和Tace16）

[tamilvu.org-3] 一個 ^b“ tamil Virtual Academy”“.

[KBDFonts-4] 一個 ^b泰米爾納德邦政府的命令（G.O。），鍵盤驅動程序和字體

[5] ttps://github.com/arcturusannamalai/open-tamil開放式塔米爾

[6] ttps://ezhillang.wordpress.com/2014/01/26/open-tamil-text-processing-%E0%E0%E89%E89%E0%AEAEB0%B0%AR；E0％AE％95％E0％AF％81％E0％AE％AA％E0％AF％AF％8D％E0％AE％AA％E0％E0％AE％BE％E0％AE％AE％AE％AF％AF％E0％AF％AF％AF％AF％AF％AF％E0％E0％E0％AE％B5％E0％AF％81/tamil.utf8.get_letters

[7] ttps://ezhillang.wordpress.com/2014/01/26/open-tamil-text-processing-%E0%E0%E89%E89%E0%AEAEB0%B0%AR；E0％AE％95％E0％AF％81％E0％AE％AA％E0％AF％AF％8D％E0％AE％AA％E0％E0％AE％BE％E0％AE％AE％AE％AF％AF％E0％AF％AF％AF％AF％AF％AF％E0％E0％E0％AE％B5％E0％AF％81/^{[用戶生成的來源]}

[8] ttps://www.unicode.org/l2/l2/l2012/12033-tamil-presentation.pdf^{[裸露的URL PDF]}

[9] “未批准通知的檔案”.

[10] ttps://pypi.org/project/open-tamil/Open-Tamil項目

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

字符編碼
早期電信	電報代碼針莫爾斯非拉丁蛋白 Wabun/Kana 中國人西里爾韓國人鮑多特和默里 fieldata ASCII ISO/IEC 646 BCDIC Teletex和videotex/Teletext T.51/ISO/IEC 6937 ITU T.61 ITU T.101 世界系統電視背景套轉碼
ISO/IEC 8859	批准的零件 -1（西歐） -2（中歐） -3（馬耳他/埃斯佩蘭托） -4（北歐） -5（西里爾） -6（阿拉伯語） -7（希臘） -8（希伯來語） -9（土耳其） -10（北歐） -11（泰國） -13（波羅的海） -14（凱爾特人） -15（新西歐） -16（羅馬尼亞語）廢棄的零件 -12（Devanagari）提議但未批准 KOI-8西里爾薩米改編威爾士語巴倫支西里爾愛沙尼亞人烏克蘭西里爾
書目使用	MARC-8 安塞爾 CCCII/EACC ISO 5426 5426-2 5427 5428 6438 6862
國家標準	Armscii Brascii CNS 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSC iscii JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 Pascii Shift Jis SI 960 TIS-620 TSCII Viscii VSCII Yuscii
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 擴展的UNIX代碼 / EUC
蘋果系統代碼頁（“腳本”）	亞美尼亞人阿拉伯巴倫支西里爾凱爾特人中歐克羅地亞人西里爾 Devanagari 波西（波斯）字體X（Kermit）蓋爾語格魯吉亞人希臘語古吉拉特語 Gurmukhi 希伯來語冰島因紐特人鍵盤拉丁語（Kermit）馬耳他/世界語奧格姆羅馬羅馬尼亞人薩米土耳其突出西里爾烏克蘭 VT100
DOS代碼頁	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 ABICOMP CS指示 CSX指示 CSX+指示 CWI-2 伊朗系統卡梅尼克馬佐維亞 Mik
IBM AIX代碼頁	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Windows代碼頁	CER-GS 932 936（GBK） 950 1169 擴展拉丁-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 西里爾 +芬蘭西里爾 +法語西里爾 +德語多骨希臘語
EBCDIC代碼頁	37 日語中的EBCDIC dkoi
十二月終端（VTX）	跨國公司（MCS）國家替代者（NRCS）法國加拿大瑞士西班牙語英國荷蘭芬蘭法語挪威和丹麥語瑞典挪威和丹麥語（替代） 8位希臘語 8位土耳其 SI 960 希伯來語特殊圖形技術（TCS）
特定平台	1057 橡子 Adobe標準 Adobe Latin 1 Amstrad CPC 蘋果二世 atascii atari st BICS CASIO計算器 CDC COMPUCOROR II CP/M+ DEC radix 50 DEC MC/NRCS DG國際 fieldata 寶石 GSM 03.38 惠普羅馬 HP焦點 HP Rpl 擠壓 lics LMBC MSX NEC APC 下一個 petscii SEGA SC-3000 尖銳的計算器尖銳的MZ Sinclair Ql 象徵 Teletext TI計算器 TRS-80 文圖拉國際威斯科 XCCS ZX80 ZX81 ZX光譜
Unicode/ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Unicode編碼的比較
德克薩斯排版系統	軟木 Ly1 OML OMS OT1
其他代碼頁	ABICOMP ASMO 449 big5 APL符號的數字編碼 ISO-IR-68 Arib STD-B24 赫茲 IEC-P27-1 INIS 7位 8位 ISO-IR-169 ISO 2033 錦鯉 koi8-r koi8-ru koi8-u mojikyō seascii 斯坦福/它的特隆統一的掛孔代碼
控製字符	莫爾斯躍行 C0和C1控制代碼 ISO/IEC 6429 JIS X 0211 Unicode控制，格式和分隔符字符空間字符
相關話題	CCSID html中的字符編碼 char集檢測漢統一硬件代碼頁麥克代碼 Mojibake 可變長度編碼
角色集