- CS-A0100
- 2. Wikipedia-projekti
- 2.1 Wikipedia-projekti — johdanto
Wikipedia-projekti — johdanto¶
Tutustumme nyt ihan käytännössä siihen, miten Linux-ympäristössä pystyy pyörittelemään ja tutkimaan isojakin tiedostoja — erityisesti, kun liikutaan sellaisissa tietomäärissä, joita ei ole oikein mielekästä yrittääkään avata Excelissä tai perata käsipelillä.
Opimme tässä luvussa, miten ison datan kanssa pääsee alkuun Linuxin perustyökaluilla, ilman, että tarvitsee edes osata ohjelmoida. Opimme myös tulemaan toimeen reaalimaailmasta löytyvän varsin sottaisenkin datan kanssa.
Tarvitset useamman gigatavun vapaata levytilaa. Tämä ei yleensä ole ongelma, kun nykyaikaisen tietokoneen levytila on yleensä satoja gigatavuja, mutta on hyvä varmistaa jo ennen aloittamista, ettei levytilan kanssa tule yllätyksiä vastaan. Voit katsoa Linuxissa esimerkiksi komennolla df -h .
paljonko sillä levyllä on vapaata tilaa, jossa tämänhetkinen työhakemistosi on. Sarakkeessa "Avail" näkyy ihmisluettavassa muodossa levytilan määrä, esimerkiksi "10Gi" tarkoittaa 10 gigatavua, mikä riittää meille hyvin.
Varoitus
Älä missään nimessä yritä tehdä tätä projektia käyttämällä Aallon yleiskäyttöisiä Linux-koneita kuten kosh
ja lyta
. Tehtävissä käsitellään isoja aineistoja ja tehdään raskasta laskentaa. Tehtävien ratkominen yleiskäyttöisillä koneilla haittaa suuresti koneiden muita käyttäjiä ja Aallon ylläpitokin voi joutua puuttumaan asiaan. Käytä jotain konetta, jossa et häiritse muita, esimerkiksi Aallon tietokoneluokista löytyviä Linux-koneita (joissa olet koneen ainoa käyttäjä) tai omaa henkilökohtaista konettasi.