- CS-A0100
- 2. Wikipedia-projekti
- 2.4 Tuntumaa tiedostoon
Tuntumaa tiedostoon¶
Nyt meillä on yksi kolmen gigatavun tiedosto, joka voi alkuun tuntua vaikeasti lähestyttävältä. Mitähän tuolla tiedostossa edes on? Tiedostoa ei kannata yrittää avata tekstieditoriin, kun lopputuloksena editoriparka luultavasti vain tukehtuu siihen tai koneesta loppuu muisti. Tiedostoa ei myöskään kannata yrittää kokonaisuudessaan tulostaa cat
-komennolla ruudulle, kun tässä vierähtäisi melkoinen tovi. Miten tätä olisi hyvä lähestyä?
Yksi vaihtoehto on käyttää head
-komentoa, joka näyttää tiedostosta alun. Esimerkiksi
head fiwiki.txt
tulostaa ruudulle tiedoston 10 ensimmäistä riviä. Kokeile! Näyttäisi, että tiedoston alussa puhutaan jotain Amsterdamista. Rohkaiseva merkki on se, että tiedosto tosiaan sisältää ihmisluettavaa tekstiä.
Otetaan hiukan enemmän; esimerkiksi head -n 1000 fiwiki.txt
hakee tiedoston alusta 1000 ensimmäistä riviä. Ohjataan tuloste tiedostoon alku.txt
ja avataan tämä tiedosto tekstieditorissa (käytämme tässä nano
-editoria, mutta mikä tahansa sinulle tuttu tekstieditori sopii):
head -n 1000 fiwiki.txt > alku.txt
nano alku.txt
Kun selailet tiedostoa, näet, että siinä tosiaan on Wikipedian artikkeli Amsterdamista. Koodi näyttää hyvin samalta kuin mitä näet, jos menet Wikipediassa toimintoon "Muokkaa wikitekstiä". Tuolla on siis samaa koodia kuin mitä Wikipedian toimittajatkin käyttävät. Enimmäkseen siis tavallista tekstiä, mutta seassa on koodia, joka liittyy taulukoihin, otsikoihin, linkkeihin ym. Näköjään artikkelit on merkitty tähän tapaan:
= Amsterdam =
Ja artikkelien sisäiset väliotsikot taas tähän tapaan:
== Maantiede ja ilmasto ==
Poistu editorista; katsotaan vastaavasti tiedoston loppupäätä; tämä onnistuu tail
-komennolla:
tail -n 1000 fiwiki.txt > loppu.txt
nano loppu.txt
Tiedoston lopusta näyttäisi löytyvän ainakin tuore artikkeli Soutu kesäolympialaisissa 2024, ja tiedosto näyttää päättyvän järkevästi siihen mihin artikkelikin päättyy. Hyvältä näyttää.
Hyvä väline isojenkin tiedoston selailuun on less
. Voit avata koko tiedoston selailtavaksi tähän tapaan:
less fiwiki.txt
Näet ruudulla tiedoston alun. Välilyöntiä painamalla pääset seuraavalle sivulle, b
-näppäimellä (back) pääset takaisin edelliselle sivulla ja q
-näppäimellä (quit) voit poistua. Lisää less
-komennon käytöstä löydät komennolla man less
(joka itseasiassa käyttää samaista less
-komentoa manuaalin näyttämiseen). Erinomainen puoli less
-komennossa on se, että toisin kuin tyypillinen tekstieditori, tämä komento hakee tiedostosta vain tarvittavan osan muistiin, ja less
osaa näyttää tiedoston alun saman tien ilman, että koko tiedoston latautumista tarvitsee odotella. Kokeile!