Kliendiandmebaasides salvestatud andmed mängivad suurt rolli nii avaliku kui ka erasektori ärianalüüsi (ingl business intelligence), andmeteaduse ja masinõppe lahenduste loomisel, kuid üksnes nendest sisalduvatest andmetest tihti ei piisa. Vaja läheb ka andmeid, mida saab andmekaevest. Lisaandmete juurdetoomine juba olemasolevatele andmetele ning andmete rikastamine ja väärindamine on andmete ettevalmistamisel tihti väga oluline.
Mis on andmekaeve?
Vikipeedia kirjeldab seda kui automaatset protsessi suurtest andmehulkadest kasulike mustrite paljastamiseks. Andmekaevet rakendatakse paljudes valdkondades. Üheks tüüpiliseks näiteks on klientide segmenteerimine näiteks geograafilise asukoha, riskimäära või maksejõu alusel. Geograafiliseks segmenteerimiseks kasutatakse andmekaeves koordinaatide või aadressiandmete lisamist ehk niinimetatud geocoding’ut. Aadressiandmete alusel saab jaotada kliente gruppidesse nii ametlike administratiivsete üksuste kui ka meie endi vabalt valitud geograafiliste piirkondade järgi.
Joonis 1. Georuumiline andmeanalüüs turuanalüüsi osana (allikas: KPMG Hiina)
Andmekaeve põhilisteks allikateks on tänapäeval failides salvestatud arhiivid, privaatsed andmebaasid ja -laod, üha enam aga ka kolmandate isikute kättesaadavad online-andmebaasid ja mitmesugused veebilehed. Andmekaeve puhul on oluline, et opereeritakse suurte andmehulkadega: kümnest veebilehest andmete kopeerimine või kümne kliendi aadresside muutmine koordinaatideks tundub lihtne, aga kui allikaid või kandeid on tuhandeid, läheb vaja programmeerimist.
Andmekaeve veebist - veebi kammimine
Internetilehtedel surfamine tundub probleemivaba tegevus. Kui seda teeb aga robot, tekitab see siiski mõningaid küsimusi. Võtame ette näite, kus mul on ettevõtete veebilehtede aadressid ja soovin korjata nende veebilehtedel avaldatud informatsiooni, milleks võivad olla kontaktid, hinnad, pakutavate teenuste ja toodete kirjeldused või ükskõik milline muu teave. Kuigi kogutavad andmed on täiesti avalikud, reguleerivad nende kogumist robotiga siiski mittekohustuslikud erireeglid. Pea iga veebilehe jaoks on olemas fail „robot.txt“, mis annab robotile ette teatavad suunised. Kui võtame ette näiteks sellise veebilehe nagu www.delfi.ee, leiame need suunised aadressilt www.delfi.ee/robots.txt. Konkreetselt delfi.ee puhul on mõningate uudiste kogumine veebirobotile lubatud, kuid teisi uudiseid masinsilmale näidata ei soovita. Ei ole vähe ka selliseid veebilehti, mille robot.txt seadistus keelab ära kõik robotid. Need reeglid on küll esmajoones mõeldud sellistele otsingumootoritele nagu Google, kuid ei saa öelda, et need nn privaatroboteid üldse ei mõjuta.
Veebirobotite regulatsioon
Mis juhtub siis, kui korjame andmeid automaatselt enda privaatrobotiga? Kas peame kinni robot.txt suunistest? Kunagi ülikooli aegadel, kus mul oli õppetöö jaoks vaja koguda robotiga andmeid riigiasutuste avalikest dokumendiregistritest, kus botid on samuti keelatud, küsisin õiguslikku arvamust asjatundjatest advokaadibüroolt ja nad ei näinud sellises tegevuses mingeid probleeme. Ent siin on mitu aga. Kui veebilehe omanik paneb välja isikuandmeid ning robot korjab ja salvestab ka neid, kas siis muutume selliste andmete omandamisega ka meie isikuandmete töötlejaks koos kogu kaasneva vastutusega? Mis siis, kui kogemata korjame üles tundlikke äriandmeid, mis postitati kuhugi juhuslikult?
Suurema kindluse nendes küsimustes võib anda tulevik. 2019. aastal tehti ettepanek muuta robotite veebikammimist reguleeriv standard, mis on eksisteerinud mitteametlikult alates 1994. aastast, ametlikuks IETF dokumendiks. Vastav menetlus käib ja jääb vaid oodata, kas see toob selgust veebirobotite eetika- ja õigusraamistikku.