tiistai 22.10.2024 12:00 – keskiviikko 1.1.2025 12:00
Osa 2: Wikipedia-projekti
Tässä osassa tutustumme käytännössä siihen, miten Linux-ympäristössä pystyy pyörittelemään ja tutkimaan isojakin tiedostoja. Teemme pienen tutkimusprojektin, jossa analysoimme suomenkielisen Wikipedian koko tekstiaineistoa!
- 2.1 Wikipedia-projekti — johdanto
- 2.2 Esimerkkidata
- 2.3 Tiedonpakkaus ja purku
- 2.4 Tuntumaa tiedostoon
- 2.5 Näytepala: head
- 2.6 Otsikoiden haku: grep
- 2.7 Otsikoiden tutkimista: cut, sort, uniq
- 2.8 Sanoja otsikoissa
- 2.9 Sanojen hakua: grep -o
- 2.10 Pienet kirjaimet: awk
- 2.11 Skriptit avuksi
- 2.12 Siivoamista: sed