Otsikoiden tutkimista: cut, sort, uniq¶

Aletaan nyt hiukan tutkia suomenkielisen Wikipedian otsikoita. Millä kirjaimilla artikkelit yleisimmin alkavat?

Meillä on tiedostossa osa-otsikot.txt näytepalan otsikot. Jokaisella rivillä on alussa merkit = ja välilyönti ja sen jälkeen alkaa varsinainen otsikko. Otsikon ensimmäinen kirjain on siis rivin kolmas kirjain. Saisimmeko jotenkin kaivettua pelkästään nuo kolmannet kirjaimet?

cut¶

Tällaiseen tiedostojen leikkelyyn sopii työkalu nimeltä cut. Esimerkiksi cut -c3 hakee jokaiselta riviltä kolmannen merkin ja cut -c3-5 taas hakisi kolmannen, neljännen ja viidennen merkin.

Voisimme siis hakea pelkät alkukirjaimet omaan tiedostoon tähän tapaan:

cut -c3 osa-otsikot.txt > osa-alkukirjaimet.txt

Kokeile, ja käy katsomassa less-komennolla, miltä tiedosto näyttää! Tarkista myös komennolla wc -l, että tiedostoissa osa-otsikot.txt ja osa-alkukirjaimet.txt on tosiaan saman määrä rivejä.

Otsikoiden tutkimista: cut, sort, uniq¶

cut¶

sort ja uniq¶