Datu-konpresio

Konputazio zientzian datu-konpresioa tratatu beharreko datuen bolumenaren murriztea da, informazio jakin bat ahalik eta espazio kopuru txikiena erabiliz adierazteko. Datu-konpresioaren ekintza konpresio izendatzen da, eta kontrakoa deskonpresioa.

Konpresiorik gabeko informazio kodetu batek (datuak, seinale digitala, eta abar) hartzen duen lekua laginketaren maiztasunaren eta bereizmenaren arteko zatidura da. Beraz, zenbat eta bit gehiago erabili, orduan eta handiagoa izango da fitxategiaren tamaina. Dena den, lanerako erabiltzen den sistema digitalak ezartzen du bereizmena eta biten kopurua ezin da nahi bezala aldatu; hori dela eta, konpresioa erabiltzen da, bereizmen handiko informazio kantitate bera bit kopuru txikiagoan transmititzeko.

Datu konpresiorako erabiltzen diren algoritmoak zenbakiak zenbaki lehenen biderketa moduan adierazteko algortimoetan oinarritzen dira. Biderketa horretako zenbaki lehenen maiztasunak modu unibokoan adierazten du jatorrizko datua zein den.

Konpresioa kodeketa berezi bat da eta bere ezaugarri nagusia da, konpresioarekin lortutako kodeketak jatorrizkoak baino tamaina txikiagoa duela.

Datu-konpresioa, funtsean, datu-sekuentzien errepikapenak aurkitzean datza; ondoren, datua eta errepikapenen kopurua besterik ez da gordeko. Honela, adibidez, fitxategi batean 6 byte okupatzen duen "AAAAAA" sekuentzia agertzen bada, 2 byte besterik okupatzen ez duen " 6A" gorde ahal izango litzateke, RLE algoritmoa erabiliz.

Egia esan, prozesua askoz ere konplexuagoa da, gutxitan lortzen direlako hain zehatzak diren errepikapen-ereduak (irudiren batzuetan izan ezik). Honako konpresio-algoritmoak erabiltzen dira:

  • Alde batetik, algoritmo batzuek geroago forma motzagoetan kodetuko diren sekuentzia luzeak bilatzen dituzte.
  • Bestalde, algoritmo batzuek, Huffmanen algoritmoak adibidez, sarrien errepikatzen diren karaktereak aztertzen dituzte, gehien errepikatzen direnak forma motzagoetan kodetzeko.
  • Beste batzuek, LZW algoritmoak adibidez, aurkitutako ereduekin hiztegi bat eraikitzen dute, geroago eredu horiei erreferentzia egiten zaielarik.
  • Erraz ulertzen den beste konpresio-algoritmo bat byte bikoitien kodeketa da.

Konpresioari buruz hitz egiterakoan, honako bi kontzeptuak kontutan hartu behar dira:

  1. Erredundantzia: Aurreikus daitezkeen edo errepikakorrak diren datuak
  2. Entropia: Informazio berria edo funtsezkoa da, hau da, mezu batean dagoen datu kopuru totalaren eta bere erredundantziaren arteko diferentzia.

Datuek emandako informazioa hiru motatako izan daiteke:

  1. Erredundantea: informazio errepikakorra edo aurreikus daitekeena.
  2. Esanguratsua ez dena: hauteman ezin dugun informazioa; ezabatzeak, beraz, ez du mezuaren edukiaren gain eraginik sortuko. Adibidez, giza-entzumena 16/20Hz eta 16.000/20.000Hz arteko maiztasunak aditzeko gai bada, maiztasun horien gainetik edo azpitik daudenak ez dira esanguratsuak izango.
  3. Oinarrizkoa: esanguratsua dena. Erredundantea ez den informazio esanguratsua. Transmititu behar dena seinalea berreraiki ahal izateko.

Hiru informazio mota horiek kontuan izanik, informazioaren konpresiorako hiru eredu ezartzen dira:

  1. Galerarik gabeko konpresioa: mezuaren entropia osoa transmititzea (oinarrizkoa den eta esanguratsua ez den informazio osoa transmititzea, baina erredundantea kenduz).
  2. Galera subjektiborik gabea: informazio erredundanteaz gain esanguratsua ez dena ere kendu egiten da.
  3. Galera subjektiboarekin: oinarrizko informazioa galdu egingo da, errore nabariekin, baina onargarriak, berreraikiko da mezua ( adibidez: ideokonferentzia).

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by razib.in