- CS-A0100
- 1. Tietoa tietokoneessa
- 1.2 Erilaista dataa
Erilaista dataa¶
Tavallinen englanninkielinen teksti vie siis tietokoneelle tallennettuna suunnilleen tavun per merkki, suomenkielinen hiukan enemmän, riippuen siitä, paljonko tekstissä esiintyy sellaisia merkkejä kuin ä, ö, å tai š, joita ei ASCII-merkistöstä löydy.
Kuvat¶
Kuvat esitetään usein niin, että yksi kuvapiste eli pikseli on kolme tavua: kuinka paljon punaista (0–255), kuinka paljon vihreää (0–255) ja kuinka paljon sinistä (0–255) pikselissä on. Täysin musta on tavukolmikko (0, 0, 0) ja täysin valkoinen on (255, 255, 255). Esimerkiksi (200, 200, 200) on vaalean harmaa ja (255, 255, 0) on iloisen keltainen.
Tavallisessa televisiokuvassa voi olla 1920 × 1080 pikseliä eli suuunnilleen 2 miljoonaa, ja kuvan esittäminen ilman tiedonpakkaamista veisi siis noin 6 miljoonaa tavua. Kuvia kuitenkin pystytään pakkaamaan huomattavasti, etenkin, jos sallitaan pienenpienet erot alkuperäiseen. Kuvien tallentamiseen on kehitetty sekä häviöttömiä pakkausmuotoja kuten PNG että häviöllisiä pakkausmuotoja kuten JPEG. PNG sopii hyvin esimerkiksi viivapiirroksille, ja PNG-tiedostoissa pakkaus hyödyntää erityisesti sitä, että tällaisissa kuvissa on paljon toistuvaa sisältöä (esimerkiksi isoja valkoisia alueita). JPEG sopii taas hyvin esimerkiksi valokuville, ja JPEG-pakkaus hyödyntää erityisesti sitä, että ihmissilmä ei huomaa, jos kuvan yksittäisten pikselien värisävyt hiukan muuttuvat.
Lataa tämä kuva omalle tietokoneellesi: helsinki.jpg. Tutki, kuinka monta pikseliä kuvassa on ja minkä kokoinen kuvatiedosto on. Voit tehdä tämän missä tahansa kuvankäsittelyohjelmassa, mikä on sinulle tuttu. Voit myös kokeilla, mitä Linuxin file
-komento sanoo tästä tiedostosta (käyttö tyyliin file tiedostonimi
).
Numeerinen data¶
Numeerista dataa, esimerkiksi mittaussignaalia, voidaan esittää eri tavoilla. On hyvä erottaa kaksi eri esitystapaa: teksti ja binäärinen.
Tekstimuoto tarkoittaa yksinkertaisesti jotain esitystapaa, joka on ihmisluettava tekstitiedosto. Luku 12345 voidaan tällöin esittää tekstinpätkänä, jossa meillä on 5 merkkiä, kukin esitettynä ASCII- tai Unicode-merkistön mukaisilla koodeillaan. Tämä vie 5 tavua, ja lisäksi tarvitaan jokin erotinmerkki kuten välilyönti tai pilkku erottamaan lukuja toisistaan. Muoto on käytännöllinen ihmisten kannalta, kun tiedostoa voi tarkastella suoraan vaikka tekstieditorissa, mutta tämä ei tietenkään ole tietokoneen kannalta tehokkain mahdollinen esitystapa.
Binäärinen esitys taas tarkoittaa, että tiedostossa on esimerkiksi varattu 2 tavua kutakin lukua kohti, ja näin voidaan suoraan esittää luvut 0–65535 kompaktisti. Tietokoneelle tämä on luonnollinen esitysmuoto, mutta jos tällaisen tiedoston yrittää avata esimerkiksi tekstieditorissa, näkee vain sekalaista roskaa, kun editori yrittää epätoivoisesti tulkita näitä tavuja esimerkiksi UTF-8-muotoiseksi tekstiksi.