- CS-A0100
- 2. Wikipedia-projekti
- 2.8 Sanoja otsikoissa
Sanoja otsikoissa¶
Tutkitaan seuraavaksi hiukan lapion esiintymistä Wikipediassa…
Etsi seuraavaksi sanan "data" esiintymiä otsikoista. Yksinkertainen haku tyyliin grep data fiwiki-otsikot.txt
ei kuitenkaan oikein tuota haluttua; löytöjen joukossa on muun muassa paperitoukka Ctenolepisma longicaudata ja kanervamittari Chlorissa viridata. Miten löytäisimme pelkästään data-sanan esiintymiä?
Haku tyyliin grep ' data ' fiwiki-otsikot.txt
on jo parempi; tämä löytää ainoastaan osumia, joissa sana "data" esiintyy yksinään ja molemmilla puolilla on välilyönnit. Mutta tämä taas ei löydä sen kaltaisia otsikoita kuin "GSM-data" (sanan "data" edellä ei ole välilyöntiä), "Control Data Corporation" (sana "data" kirjoitettu isoilla kirjaimilla), "Datatiede" (yhdyssanan osana) tai "Euroopan unionin avoimen datan portaali" (sana on taivutettu).
Täydellistä ratkaisua tähän ei ole, mutta muutama toiminto auttaa. Ensinnäkin, grep
tukee valitsinta -i
, joka tekee haun piittaamatta merkkikoosta. Niinpä esimerkiksi haku
grep -i ' data ' fiwiki-otsikot.txt
löytää sellaisetkin sivut kuin Data (Star Trek) tai DATA, mutta ei törmää paperitoukkiin.
Haettavassa hahmossa on mahdollista käyttää myös erikoismerkkejä \<
ja \>
, jotka osuvat sanan alkuun ja sanan loppuun. Haku
grep -i '\<data\>' fiwiki-otsikot.txt
löytää siis myös esimerkiksi sivun GSM-data.
Kokeile etsiä esimerkiksi omiin harrastuksiisi tai opintoihisi liittyviä sanoja tiedostosta fiwiki-otsikot.txt
— löydätkö jotain uutta, mistä et aiemmin ollut kuullutkaan?