See artikkel ootab keeletoimetamist. (Juuli 2024) |
Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks, mida haldab Unicode’i konsortsium. See hõlmab suuremaid kirjasüsteeme. 2023. aasta septembris ilmus standardist versioon 15.1.0[1], mis defineerib 149 813[2] unikaalset märki.
Unicode'is viiakse iga märk vastavusse ühe unikaalse arvuga ehk antakse igale märgile oma "koodipunkt" (ingl code point).[3] Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis. Koodipunkt hoiustab endas infot märgi identiteedi, mitte aga selle välimuse kohta. Tarkvara saab kasutada seda infot, et näiteks vastava märgi mingi versioon ekraanile kuvada.
Koodipunkti kodeerimiseks arvutis on mitu standardset viisi. Unicode'i standard defineerib kolm kodeerimise viisi, UTF-8, UTF-16 ja UTF-32, mis lubavad infot märgi kohta edastada vastavalt 8, 16 ja 32 bitiste ühikutena.[3] Neist levinuim on UTF-8, mis on ASCII-ga tagasiühilduv.
Tänapäeval on Unicode kõige laialdasemalt kasutatud kirjasüsteemide kodeerimise viis ning tarkvara arendamisel on sellega vastavus eeldatud. Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga.