Sanoja otsikoissa

Tutkitaan seuraavaksi hiukan lapion esiintymistä Wikipediassa…

Kuinka moni Wikipedian otsikko sisältää merkkijonon "Lapio" isolla alkukirjaimella?

Entä kuinka moni sisältää merkkijonon "lapio" pienellä alkukirjaimella?

Etsi seuraavaksi sanan "data" esiintymiä otsikoista. Yksinkertainen haku tyyliin grep data fiwiki-otsikot.txt ei kuitenkaan oikein tuota haluttua; löytöjen joukossa on muun muassa paperitoukka Ctenolepisma longicaudata ja kanervamittari Chlorissa viridata. Miten löytäisimme pelkästään data-sanan esiintymiä?

Haku tyyliin grep ' data ' fiwiki-otsikot.txt on jo parempi; tämä löytää ainoastaan osumia, joissa sana "data" esiintyy yksinään ja molemmilla puolilla on välilyönnit. Mutta tämä taas ei löydä sen kaltaisia otsikoita kuin "GSM-data" (sanan "data" edellä ei ole välilyöntiä), "Control Data Corporation" (sana "data" kirjoitettu isoilla kirjaimilla), "Datatiede" (yhdyssanan osana) tai "Euroopan unionin avoimen datan portaali" (sana on taivutettu).

Täydellistä ratkaisua tähän ei ole, mutta muutama toiminto auttaa. Ensinnäkin, grep tukee valitsinta -i, joka tekee haun piittaamatta merkkikoosta. Niinpä esimerkiksi haku

grep -i ' data ' fiwiki-otsikot.txt

löytää sellaisetkin sivut kuin Data (Star Trek) tai DATA, mutta ei törmää paperitoukkiin.

Haettavassa hahmossa on mahdollista käyttää myös erikoismerkkejä \< ja \>, jotka osuvat sanan alkuun ja sanan loppuun. Haku

grep -i '\<data\>' fiwiki-otsikot.txt

löytää siis myös esimerkiksi sivun GSM-data.

Kuinka monta Wikipedia-artikkelia löytyy haulla grep -i '\<data\>' fiwiki-otsikot.txt mutta ei löydy haulla grep -i ' data ' fiwiki-otsikot.txt?

Kokeile etsiä esimerkiksi omiin harrastuksiisi tai opintoihisi liittyviä sanoja tiedostosta fiwiki-otsikot.txt — löydätkö jotain uutta, mistä et aiemmin ollut kuullutkaan?

Palautusta lähetetään...