Eesti infoühiskonna aastaraamat 2011/2012. Karin Kastehein
kasutatavus ja arusaadavus andmete otsijale ja allalaadijale,
• andmete avalikustamise lihtsus ja avalikustaja töökulu minimeerimine.
Selleks tuleb esimese asjana leida kõige lihtsam, odavam ja kiirem viis olemasolevaid andmeid sellisena avalikustada ja alles seejärel uurida viise, kuidas luua mugavusi nii otsijale kui ka allalaadijale. Teisisõnu, andmete täiustamine, konverteerimine jms tööd tuleb ette võtta alles siis, kui andmehulk on juba esialgsel kujul avalikustatud.
Andmeid võib täiustada ja konvertida ka kolmas osapool, kes omakorda saab neid andmeid kas tasuta või tasu eest edasi jagada. Avatud andmehulk vastab järgmistele nõuetele13.
Tim Berners-Lee formaaditasemete soovitus kruusil
http://www.cafepress.com/w3c_shop
1. Terviklus. Kõik avalikud andmed tehakse kättesaadavaks. Selle alla loetakse kõik andmed, millele ei kehti isikuandmete jm piirangud.
2. Pärit algallikast. Andmed on töötluseta kogutud algallikast, säilitades oma originaalkuju ja detailsuse. Nagu andmekogudegi puhul, pole lubatud andmete võtmine teisesest andmekogust.
3. Ajakohasus. Andmehulk on avaldatud võimalikult kiirelt, et säilitada selle asjakohasus.
4. Kättesaadavus. Andmed on saadavad võimalikult laiale kasutajateringile võimalikult laia kasutuseesmärgiga.
5. Masinloetavus. Andmed on mõistetava struktuuriga ja automaatselt töödeldavad.
6. Diskrimineerimise vältimine. Andmed on esitatud avalikult, kättesaamiseks pole vaja registreeruda ega taotleda juurdepääsu.
7. Avatud standardite kasutamine. Andmed on esitatud avatud vormingus, mis ei ole ühegi ettevõtte ega isiku ainuomand.
8. Vaba litsents. Andmed ei ole kaitstud autoriõiguse, patendi, kaubamärgi ega ärisaladuse seadustega. Mõistlikud privaatsus- ja turvalisuspiirangud on lubatud.
Kuidas avalikustada?
Mis vormingus? Peamise põhimõttena arvestame, et palju parem on avaldada andmed ebamugavas kodeeringus, kui jätta need esialgu avaldamata põhjusel, et millalgi on plaanis võtta ette kodeeringu täiustamine. Teiseks, avaldatud andmehulka saab edaspidi avaldada uues, paremas kodeeringus.
Soovitame lähtuda vormingute ja kodeeringute kasutajasõbralikkuse hindamisel Tim Berners- Lee viie tärni süsteemist14, kus suurem tärnide arv tähendab kasutajale paremat vormingut/kodeeringut. Eesti oludes võiks vormingute jaotus olla järgmine:
* andmed on veebist kättesaadavad mis tahes vormingus (nt .jpg, pdf, doc, docx, xls). Andmeid pole võimalik failist eraldada või on esitatud omanduslikele tarkvaradele orienteeritud vormingutes;
** andmed on veebisaidil avatud vormingus (nt .txt, html, odt), kuid struktureerimata kujul;
*** andmed on veebisaidil esitatud avatud ja vabas struktuurset esitust tagavas vormingus (nt .csv, xml, ods);
**** andmetes olevaid objekte identifitseeritakse URIdega15;
***** andmed on URIde abil lingitud teiste andmetega.
Andmehulga avaldamiseks sobivad eeskätt vormingud, mida on võimalik avada ja töödelda vabavaraliste rakendustega. Selliselt on töödeldavad näiteks odt-vormingus dokumendifailid, samuti struktuursete andmete levinuimad vormingud .csv, json, xml.
Olukord Eestis
Eestiski on tekkinud arvestatav poliitiline tahe muuta avaliku sektori teave enam taaskasutatavaks. Nii on valitsusprogrammi16 jaotises „E-riigist I-riigiks“ alalõik „Riigi e-varade andmine kodanike ja ettevõtete teenistusse“ pühendatud avaandmetele. Valitsusprogramm lubab sõnaselgelt:
• teeme riigi ruumiandmed töödeldaval kujul avalikuks – see annab kodanikele ja ettevõtetele võimaluse ise luua riigi andmete põhjal otstarbekaid teenuseid;
• läbipaistvuse ja kaasatuse suurendamiseks ning erasektori ergutamiseks uute rakenduste loomisele muudame avalikud ehk riigi ja kohalike omavalitsuste andmed masinloetavaks (machine-readable public data);
• seame sihiks, et era- ja avaliku sektori koostöös loodud andmekogud oleksid ettevõtetele ja eraisikutele arendamiseks kättesaadavad.
Eestis tegutseb avatud andmete kogukond17, kogukonnal on lehekülg ka Facebookis. Teenuste valmistamisel on aktiivne liikumine Garage48, kelle deviisiks on „vähem juttu, rohkem tegusid“. Arvestatav on ka ITLi initsiatiiv, kelle 2011. aasta konverents „Visioonist lahenduseni 2011“ keskendus takistusele uute e-teenuste loomisel.
Eestis võib hinnata avaliku teabe kättesaadavust eeskujulikuks. Kuna üsnagi liberaalne avaliku teabe seadus18 kohustab teabevaldajaid avalikustama juurdepääsupiiranguteta info asutuse veebisaidi, dokumendiregistri ja andmekogude kaudu, siis kuulub meil avalikustamisele tunduvalt rohkem teavet kui enamikes riikides. Näiteks peab iga avaliku sektori asutus avalikustama asutuse koosseisu, palgaandmed, dokumendiregistrid, aruanded, statistika, eelarved, arengukavad. Avaliku teabe seadus eristab 32 liiki avalikustatavat teavet. Arvestades, et Eestis on 2000 avaliku sektori asutust ja iga asutus peaks avalikustama keskmiselt 10 andmehulka, on taaskasutatava teabe maht vähemalt 20 000 andmehulka.
Kuid erinevalt enamikust riikidest ei lasu avalikul sektoril kohustust avalikustada infot taaskasutataval kujul. Avalikustatud andmehulgad pole alati avatud vormingutes. Kasutatakse põhiliselt PDFi ja omanduslikule tarkvarale MS Office orienteeritud vorminguid. Seega on valdavalt tegemist ühe tärni andmetega.
Avaliku sektori info on talletatud andmebaasidesse. Kuid avalikud andmebaasid ja nende avatud teenuste liidesed on kirjeldamata ja seega raskesti taaskasutatavad. Seadus ei kohusta avalikustama selliste registrite kirjeldusi ja nende teenuseid riigi infosüsteemi haldussüsteemis RIHA. Näiteks on Riigikantselei dokumendiregister eeskujulikult realiseeritud, selle väljundiks on xml-kujul andmed, kuid andmed ja otsirakenduse liides, samuti tulemuste salvestamise võimalus xml-vormingusse pole potentsiaalsetele kasutajatele kirjeldatud. Esitades dokumendiregistrile päringu kujul https://dhs.riigikantselei.ee/avalikteave.nsf/contractsbydate?open&path=2011/12|Detsember, saame vastuse kujul:
<document noteid=“NT0017AE7E“>
<field name=“date“>30.12.2011</field>
<field name=“docid“>L11165</field>
<field name=“subject“>Trükiste kujundamine ja trükkimine</field>
<field name=“documenttype“>Töövõ-tuleping</field>
<fieldname=“contractstartdate“>
30.12.2011</field>
<field name=“contractenddate“>20.01.2012</field></document>.
Kuid Riigikantselei dokumendiregister on pigem positiivne erand. Enamik taolisi registreid väljastab tulemusena HTML-teksti, mida ei saa vahetult taaskasutuseks töödelda.
Avalikud teenused ei kaota mahalaadimise vajadust. Enamasti puudub Eesti avalikel teenustel otsitulemuste mahalaadimise võimalus, rääkimata nende vahetust mashup-võimalusest teiste teenustega.
Vastavalt avaliku teabe seadusele peavad andmekogus töödeldavad andmed olema avalikult kättesaadavad, kui neile ei ole seadusega või selle alusel kehtestatud juurdepääsupiirangut. Kuid andmekogus ei avalikustata isikuandmeid, kui avaldamise kohustus ei tulene seadusest. Seega peaksid olema ilma isikuandmeteta avalikud kiiruskaamerate andmed, politsei registreeritud intsidendid jms. Eesti avalik sektor on valdavalt eiranud seda nõuet ja jätnud isikuandmeid sisaldava registrite avaliku osa avalikustamata, rääkimata nende esitamisest taaskasutaval kujul.
Isikuandmeid sisaldavate registrite
13
http://www.opengovdata.org/home/8principles
14
http://lab.linkeddata.deri.ie/2010/star-scheme-by-example
15
http://en.wikipedia.org/wiki/Uniform_resource_identifier
16
https://valitsus.ee/UserFiles/valitsus/et/valitsus/tegevusprogramm/valitsuse-tegevusprogramm/Valitsusliidu_programm_2011-2015.pdf
17
http://www.opendata.ee
18
https://www.riigiteataja.ee/akt/122032011010?leiaKehtiv