9. helmikuuta 2012

Teekkarin näkemys aineistojen luokittelusta


Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.



Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin "datalla" viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi