Unicode

Pilt sinisel taustal valge tekstiga. Kujutatud on Unicode konsortiumi logo.
Unicode'i konsortsiumi logo

Unicode on rahvusvaheline standard arvutites kirjasüsteemide kodeerimiseks, mida haldab Unicode’i konsortsium. See hõlmab suuremaid kirjasüsteeme. 2023. aasta septembris ilmus standardist versioon 15.1.0[1], mis defineerib 149 813[2] unikaalset märki.

Unicode'is viiakse iga märk vastavusse ühe unikaalse arvuga ehk antakse igale märgile oma "koodipunkt" (ingl code point).[3] Standardis märgitakse seda kujul "U+xxxx", kus xxxx on arv heksadetsimaalsüsteemis. Koodipunkt hoiustab endas infot märgi identiteedi, mitte aga selle välimuse kohta. Tarkvara saab kasutada seda infot, et näiteks vastava märgi mingi versioon ekraanile kuvada.

Koodipunkti kodeerimiseks arvutis on mitu standardset viisi. Unicode'i standard defineerib kolm kodeerimise viisi, UTF-8, UTF-16 ja UTF-32, mis lubavad infot märgi kohta edastada vastavalt 8, 16 ja 32 bitiste ühikutena.[3] Neist levinuim on UTF-8, mis on ASCII-ga tagasiühilduv.

Tänapäeval on Unicode kõige laialdasemalt kasutatud kirjasüsteemide kodeerimise viis ning tarkvara arendamisel on sellega vastavus eeldatud. Standardiga paralleelne on standard ISO 10646, mida hoitakse vastavuses Unicode'iga.

  1. "Unicode 15.1.0". www.unicode.org. Vaadatud 23. aprillil 2024.
  2. "Unicode Character Count V15.1". www.unicode.org. Vaadatud 23. aprillil 2024.
  3. 3,0 3,1 "Technical Introduction". www.unicode.org. Vaadatud 23. aprillil 2024.

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by razib.in