Kryptoanalyysi - Frekvenssianalyysi¶

Analysoimme frekvenssianalyysillä tekstijonomuodossa olevia selvä- ja salatekstejä. Salaustekniikoiden kehittyessä myös niiden murtamisessa käytetyt tekniikat luonnollisesti kehittyvät. Tutkimusta salaustekniikoiden turvallisuudesta ja erilaisten murtamismenetelmien kehittämistä kutsutaan kryptoanalyysiksi.

Kryptoanalyysin katsotaan yleensä alkaneen 800-luvulla, kun arabialainen oppinut nimeltä Al-Kindi havaitsi, että eri kirjainten esiintymistiheys vaihtelee eri kielissä. Al-Kindi keksi, että tätä havaintoa voi hyödyntää salakirjoitusten purkamiseen.

Esimerkiksi suomen kirjakielessä aakkosten esiintymistodennäköisyys noudattaa seuraavaa jakaumaa:

Suuomenkielen kirjainjakauma — Lähde: Matti Pääkkönen, ”A: sta ö:hön Suomen yleiskielen kirjaintilastoja”¶

Suomenkielisessä tekstissä siis kirjaimet esiintyvät siten, että yleisin kirjain on ’A’ sitten ’I’ ja ’T’,’N’,’E’,’S’,’L’,’O’,’K’,’U’,’Ä’, jne. Tätä tietoa voi hyödyntää korvaussalaimella salattujen salakirjoitusten purkamisessa koska voidaan olettaa, että salakirjoituksessa yleisimmin esiintyvä kirjain on luultavimmin ’A’, seuraavaksi yleisin ’I’, jne.

Yksittäisen viestin todellinen jakauma ei luonnollisestikaan noudata yllä olevaa jakaumaa täsmällisesti, etenkään lyhyissä viesteissä. Siksi voi hyvin käydä niin, että kirjainten järjestys muuttuu hieman, eikä mekaanisesti purettu viesti ole ymmärrettävä. Etenkin matalimmilla esiintymistodennäköisyyksillä olevat kirjaimet usein vaihtavat paikkoja. Viestin aiheella on luonnollisesti suuri vaikutus eri kirjainten esiintymistiheyteen. Etenkin vieraskieliset erisnimet saattavat sotkea jakaumaa merkittävästi, vaikka viesti muuten olisi suomenkielinen. On silti varsin epätodennäköistä, että tavallisessa tekstissä jakauma poikkeaisi suuresti keskimääräisestä jakaumasta. Samoin on epätodennäköistä, että esim. ’Ö’ olisi viestin yleisin kirjain, mutta ’I’ toki voi useinkin olla.

Frekvenssianalyysi on siis erinomainen työkalu korvaussalainten murtamisessa.

Yhteenveto¶

Nyt ymmärrämme, miten frekvenssianalyysillä voi tuottaa luonnollisen kielen kirjainjakaumat. Absoluuttiset kirjainmäärät eivät ole kovinkaan kiinnostavia, vaan meitä hyödyttää kirjainten suhteellinen jakauma. Aiemmin mainittiin, että hyvä salain tuottaa enkryptauksessa salatekstiä, joka muistuttaa satunnaista kohinaa. Mitä tämä tarkoittaa frekvenssianalyysissä, kun käsiteltävä tieto on tekstiä??

Alla oleva kuva esittää hyvän tasaista jakaumaa tuottavan salaimen tuottaman salakielen kirjainjakauman. Tällöin salakielessä esiintyy jokaista merkkiä yhtä paljon. Kuvan kaltaista informaatiota analysoidessamme emme pysty päättelemään mitään salaimen, avaimen tai selvätekstin ominaisuuksista. On toivottavaa, että tekstitietoa käsittelevät salaimet tuottaisivat alla olevan kuvan mukaista salakieltä.

Nyt käyttämämme frekvenssianalyysi ei kata kaikkia mahdollisia tietokoneen sallimia merkkejä tai bittikuvioita. Seuraavassa osiossa tulkitsemme datan jakaumaa klassisilla salaimilla näitä samoja tekstejä hyödyntäen. Periaate on sama, mutta tulevaisuudessa laskemme kuinka montaa eri bittikuviota, tavua tai sanaa esiintyy, sekä mikä niiden frekvenssi on.

Kryptoanalyysi - Frekvenssianalyysi¶

Tutustuminen frekvenssianalyysiin¶

Frekvenssianalyysi kevään 2021 ylioppilaskokeiden teksteistä¶

Suomen ja ruotsin kielen ero frekvenssianalyysissä¶

Frekvenssianalyysi Mats Löfströmin suomenkielisestä kirjallisesta kysymyksestä¶

Frekvenssianalyysi Mats Löfströmin ruotsinkielisestä kirjallisesta kysymyksestä¶

Miten Carol voi hyödyntää frekvenssianalyysiä?¶

Yhteenveto¶