Esimerkkidata

Otamme tässä luvussa työstettäväksi koko suomenkielisen Wikipedian kaiken tekstiaineiston. Luit oikein: lataamme aivan kaiken tekstin, mitä suomenkieliseen Wikipediaan on vuosien saatossa lukuisat vapaaehtoiset kirjoittaneet! Tämä ei ole kurssin tarpeisiin siloteltu tekstiaineisto, vaan sisältää kaiken sen, mitä Wikipediasta tietyllä hetkellä sattui löytymään, kaikkine kirjoitusvirheineen ja muine kummajaisineen.

Tiedosto, jota tulemme käyttämään, on ladattavissa osoitteesta (mutta malta hetki, älä vielä lataa tätä vaan seuraa ohjeita alla):

https://lapio.cs.aalto.fi/data/fiwiki.txt.bz2

Tämä tiedosto on luotu suoraan Wikipedian tietokantadumppien pohjalta, olemme vain siivonneet sitä hiukan ja kääntäneet eri muotoon. Tiedoston lisenssi on sama kuin Wikipedian lisenssi. Tiedostossa on mukana ainoastaan artikkelien teksti, ei esimerkiksi kuvia.

Luo esimerkiksi omaan kotihakemistoosi uusi hakemisto, vaikkapa nimellä wikipedia, ja siirry sinne:

cd
mkdir wikipedia
cd wikipedia

Lataamme tänne nyt tiedoston; tämä onnistuu helpoiten wget-ohjelmalla, joka on suunniteltu nimenomaan tiedostojen lataamiseen webistä. Periaatteessa tämä ei eroa siitä, että lataisit tiedoston web-selaimella ja siirtäisit sen oikeaan paikkaan, mutta etenkin kun toimimme isojen tiedostojen kanssa, on hyvä ladata ne suoraan sinne minne haluammekin:

wget https://lapio.cs.aalto.fi/data/fiwiki.txt.bz2

Ongelmia?

Jos tiedoston lataaminen http:llä ei jostain syystä onnistu, löydät saman tiedoston myös Aallon verkkolevyltä polusta

/m/work/courses/unix/T/cs-a0100/fiwiki.txt.bz2

Jos olet Aallon Linux-koneella voit siis myös kopioida tiedoston omaan kotihakemistoosi näin:

cp /m/work/courses/unix/T/cs-a0100/fiwiki.txt.bz2 .

Tarkistetaan, että sait tiedoston ladattua varmasti oikein. Voit katsoa komennolla sha256sum fiwiki.txt.bz2, mikä on tiedoston SHA-tarkastussumma; tulosteen pitäisi olla:

fe515b35c3dd5801653c75470796af8c114617feda7cf70d776e463accda3dc4
Palautusta lähetetään...