Unicode

Unicode eða samkóti[1] er heiti á stöðluðu kerfi í tölvuiðnaði sem gerir tölvum kleift að sýna og meðhöndla texta í flestum ritkerfum heims með samræmdum hætti, auk tákna, t.d. emoji (líka í lit). Unicode er eina kerfið sem ræður við íslensku og líka önnur tungumál sem notuð eru á Íslandi, s.s. pólsku.

Staðallinn, sem er viðhaldið af sjálfseignarstofnuninni Unicode Consortium, skilgreinir (í útgáfu 15.0 frá 2022) 149.186[2] stafatákn fyrir 161 ritkerfi (bæði nútíma og kerfi sem ekki eru lengur notuð). Val er um að nota UTF-8, sem flestir ráðleggja, og er allsráðandi á internetinu, eða t.d. UTF-16 sem er líka notað (þó ekki fyrir vefinn) en ekkert annað kerfi til að tákna Unicode er algengt (í okkar heimshluta). Microsoft ráðleggur núna UTF-8 fyrir t.d. Windows (og Xbox) forritun, en þar til nýlega lagði áherslu á UTF-16. Sumir staðlar krefjast að notað sé UTF-8 (en ekki aðrar útgáfur af Unicode, s.s. UTF-16).

Árangur Unicode við að sameina stafatöflur hefur leitt til þess að Unicode er orðið afar útbreitt (á forminu UTF-8 sem notað af 98% af vefsíðum) og er ríkjandi við þýðingu og staðfæringu hugbúnaðar. Staðallinn hefur verið innleiddur í margar nýlegar tækninýjungar á hugbúnaðarsviði, svo sem nútímastýrikerfi, XML og flest nútíma forritunarmál.

Ólíkt ISO 8859-1 stafatöflunni (líka kölluð Latin1), sem var ráðandi fyrir íslensku, þar sem allir stafir taka eitt bæti (og líka í Windows-1252, og skyldum töflum, sem var jafnvel oftar notuð en er svipuð, og eins varðandi alla íslenska stafi), taka séríslenskir stafir í íslensku tvö bæti í Unicode. Fyrstu 256 táknin í Unicode samsvara ISO 8859-1, en aðeins fyrstu 128, þ.e. ASCII (án t.d. séríslensku stafanna), taka eitt bæti í UTF-8 (en 2 bæti í UTF-16, sem er því verra fyrir íslensku og mörg önnur mál). Kostir Unicode, umfram áðurnefndar stafatöflur, eru meðal annars að texti er ekki lengur takmarkaður við íslensku, ensku (og nokkur önnur mál aðallega úr vestur-Evrópu) heldur er hægt að nota t.d. allt gríska stafrófið með (sem er gott fyrir stærðfræðilegan texta), auk annarra tákna úr stærðfræði. Einnig er t.d. hægt að nota Unicode sem lesist frá hægri til vinstri, t.d. arabísku og hebresku (aðeins betri hugbúnaður getur birt þannig texta rétt, en Unicode styður skrift í báðar áttir t.d. blandað saman í sömu setningu, og flestir vafrar, s.s. Firefox og Chrome, ráða við það).

Unicode má innleiða með nokkrum mismunandi kóðunum, sem breyta kóðum fyrir stafi í röð af bætum. Staðallinn skilgreinir þrjár kóðanir og nokkrar aðrar kóðanir eru líka til. Algengastu kóðanirnar eru UTF-8 (sem er eina formið samhæft við ASCII) og UTF-16 (sem er enn stutt í Windows en nú UTF-8 jafnfætis, og Microsoft ráðleggur nú frekar að nota UTF-8 í t.d. Windows forritun). Öll form af Unicode (sem eru í raunverulegri notkun; í skrám) taka mismikið pláss fyrir mismunandi stafi (eru „variable length“); sem dæmi fyrir t.d. „emoji“ tákn (t.d. broskalla) þarf hið minnsta 4 bæti með UTF-16 (og UTF-8). Nútíma emoji tákn eru bara studd með Unicode. Til eru afbrigði af UTF-8, sem sum eru algeng, t.d. Modified UTF-8 (notað t.d. af Java, sem notar líka UTF-16) og WTF-8 (Wobbly Transformation Format). Minna algeng er t.d. CESU-8 (Compatibility Encoding Scheme for UTF-16: 8-Bit), sem t.d Oracle gagnagrunnar styður (áður eina formið fyrir Unicode í þeim grunnum, en núorðið er UTF-8 líka stutt).

  1. „Íðorðabankinn“. idordabanki.arnastofnun.is. Sótt 29. apríl 2022.
  2. „Unicode 15.0.0“.

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy