- CS-A0100
- 2. Wikipedia-projekti
- 2.2 Esimerkkidata
Esimerkkidata¶
Otamme tässä luvussa työstettäväksi koko suomenkielisen Wikipedian kaiken tekstiaineiston. Luit oikein: lataamme aivan kaiken tekstin, mitä suomenkieliseen Wikipediaan on vuosien saatossa lukuisat vapaaehtoiset kirjoittaneet! Tämä ei ole kurssin tarpeisiin siloteltu tekstiaineisto, vaan sisältää kaiken sen, mitä Wikipediasta tietyllä hetkellä sattui löytymään, kaikkine kirjoitusvirheineen ja muine kummajaisineen.
Tiedosto, jota tulemme käyttämään, on ladattavissa osoitteesta (mutta malta hetki, älä vielä lataa tätä vaan seuraa ohjeita alla):
https://lapio.cs.aalto.fi/data/fiwiki.txt.bz2
Tämä tiedosto on luotu suoraan Wikipedian tietokantadumppien pohjalta, olemme vain siivonneet sitä hiukan ja kääntäneet eri muotoon. Tiedoston lisenssi on sama kuin Wikipedian lisenssi. Tiedostossa on mukana ainoastaan artikkelien teksti, ei esimerkiksi kuvia.
Luo esimerkiksi omaan kotihakemistoosi uusi hakemisto, vaikkapa nimellä wikipedia
, ja siirry sinne:
cd
mkdir wikipedia
cd wikipedia
Lataamme tänne nyt tiedoston; tämä onnistuu helpoiten wget
-ohjelmalla, joka on suunniteltu nimenomaan tiedostojen lataamiseen webistä. Periaatteessa tämä ei eroa siitä, että lataisit tiedoston web-selaimella ja siirtäisit sen oikeaan paikkaan, mutta etenkin kun toimimme isojen tiedostojen kanssa, on hyvä ladata ne suoraan sinne minne haluammekin:
wget https://lapio.cs.aalto.fi/data/fiwiki.txt.bz2
Ongelmia?
Jos tiedoston lataaminen http:llä ei jostain syystä onnistu, löydät saman tiedoston myös Aallon verkkolevyltä polusta
/m/work/courses/unix/T/cs-a0100/fiwiki.txt.bz2
Jos olet Aallon Linux-koneella voit siis myös kopioida tiedoston omaan kotihakemistoosi näin:
cp /m/work/courses/unix/T/cs-a0100/fiwiki.txt.bz2 .
Tarkistetaan, että sait tiedoston ladattua varmasti oikein. Voit katsoa komennolla sha256sum fiwiki.txt.bz2
, mikä on tiedoston SHA-tarkastussumma; tulosteen pitäisi olla:
fe515b35c3dd5801653c75470796af8c114617feda7cf70d776e463accda3dc4