UTF-8
UTF-8 (անգլ.՝ UTF-8 «Unicode Transformation Format – 8-bit») Յունիկոդ սիմվոլների կոդավորման ստանդարտ է։ Այն կարող է ներկայացնել մինչեւ 1,112,064 հատ վավեր յունիկոդի սիմվոլ 4 բայթով[1]։
Կոդավորումը նախագծվել է Քեն Թոմփսոնի եւ Ռոբ Փայկի կողմից, առաջին իրականացումը եղել է նրանց Plan 9 օպերացիոն համակարգում 1992 թվականի սեպտեմբերին[2][3]։
Կոդավորումը
Առաջին 128 համարները (առաջին բայթը) զբաղեցնում են ASCII կոդերը, որի շնորհիվ ASCII կոդավորումով տեքստերը համատեղելի են UTF-8 -ի հետ։ Հաջորդ 1,920 համարներում գրված են գրեթե բոլոր լատինատառ այբուբենները, նաեւ IPA ընդլայնումները, հունարենի, հայերենի, կյուրեղագիր այբուբենները։
UTF-8 -ում սիմվոլի առաջին բայթի սկզբում եղած 1 -երի քանակը ցույց է տալիս, թե քանի բայթ հիշողություն է զբաղեցնում տվյալ սիմվոլը։ Շարունակվող բայթերը սկզբից ունենում են 10 բիթերը, որից հետո գրվում է սիմվոլի համարի մաս կազմող բիթերը։ Ներքեւում բերված աղյուսակում x -ով նշված են այն բիթերը, որոնք օգտագործվում են սիմվոլի համարը գրելու նպատակով։
Առաջին համար | Վերջին համար | Բայթ 1 | Բայթ 2 | Բայթ 3 | Բայթ 4 |
---|---|---|---|---|---|
U+0000 | U+007F | 0xxxxxxx | |||
U+0080 | U+07FF | 110xxxxx | 10xxxxxx | ||
U+0800 | U+FFFF | 1110xxxx | 10xxxxxx | 10xxxxxx | |
U+10000 | U+10FFFF | 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
Նախկինում UTF-8 -ը կարող էր օգտագործել նայեւ 5 եւ 6 բայթերը սիմվոլի կոդը գրելու համար, բայց 2003 թվականին RFC 3629 ստանդարտով utf-8-ը սահմանափակվեց 4 բայթում։ Փոփոխության նպատակն էր պահպանել համատեղելիություն UTF-16 -ի հետ։ Ստանդարտում կա հնարավորություն սիմվոլների, որոնք զբաղեցնում են 4 -ից ավելի բայթ, դրանց դեպքում կատարվում է սիմվոլների միավորում. օրինակ երկրների դրոշները նշվում են 2 սիմվոլ միացնելով։
Տարածվածությունը
Սկսած 2008 թվականից UTF-8 -ը դարձել է ամենատարածված կոդավորումը web -ում։ 2024 թվականի փետրվարի դրությամբ կայքերի 98.1% -ը ունեն UTF-8 կոդավորում[4]։ Բազմաթիվ ստանդարտներ՝ օրինակ JSON տվյալների փոխանակումը պարտադրում է օգտագործել UTF-8։
Ծանոթագրություններ
- ↑ «UTF-8, a transformation format of ISO 10646».
- ↑ «UTF-8 History».
- ↑ Pike, Rob; Thompson, Ken (1993). «Hello World or Καλημέρα κόσμε or こんにちは 世界» (PDF). Proceedings of the Winter 1993 USENIX Conference.
- ↑ «Usage Survey of Character Encodings broken down by Ranking». W3Techs (անգլերեն). Վերցված է 2024 թ․ փետրվարի 2-ին.