трънки и блогинки

Препоръки за публикуване на отворени правителствени данни

Написано на: 13.03.2013 · 9 коментара

Публикувам предложение за Препоръки за публикуване на отворени правителствени данни. Това предложение е изготвено в процеса на работата на обществен съвет „Прозрачност“ към зам-министър Валери Борисов. Целта беше да се създадат общи насоки за базовите условия и изисквания, които трябва да се спазват при публикуване на отворени данни.

Тъй като от днес вече Валери Борисов не е на поста си, целта на тези препоръки може и да не се осъществи. Публикувам ги с надеждата да са нужни на някого някога и да може да ги използва. Искам да благодаря на Алекс Станев, Христо Трайков и Валери Борисов за бележките и коментарите по тях.

Препоръки за публикуване на отворени правителствени данни

Отчитайки:

  • Политиката на Европейската комисия;
  • Стандартизационните усилия и техническите препоръки на W3C;
  • Обсъжданата Директива за повторно използване на информацията от обществения сектор и
  • Опита на водещите държави в областта на отворените данни

изготвихме настоящите препоръки за публикуване на отворени правителствени данни:

Определения

За целите на настоящата препоръка:

  1. „Отворен формат“ е общодостъпен начин за възпроизвеждане на информация в цифров вид, който дава възможност на всеки да възприема, променя и създава информация, без да бъде обвързан с използвания софтуерен продукт или конкретен производител.
  2. „Машинно-читаем формат“ е формат, който позволява компютърна програма еднозначно и надеждно да идентифицира съдър­жащите се в електронния документ отделни данни, както и вътрешната им структура.
  3. „Преизползване“ или „повторна употреба“ е възможността за използването от страна на физически или юридически лица на документи за търговски или нетърговски цели, различни от първоначалната цел, за която са били създадени.
  4. „Свързаност“ е възможността между различните пакети от отворени данни да бъдат изграждани идентифициращи връзки на базата на еднозначни идентификатори като националните класификатори и идентификационни кодове.
  5. „Отворен лиценз“ е едностранно изявление от носителя на правата, с което разрешава свободната повторната употреба при равни и недискриминативни условия, по отношение на лицата и начина на ползване.

Формати за публикуване на данни

Препоръка: Данните да се публикуват както във вид, удобен за ползване от хора, така и в отворен, машинно-читаем формат, който да позволява тяхното преизползване и свързване. Следва да бъдат използвани общоприети, базирани на текст, формати за публикуване на данните в структуриран вид за да са готови за автоматична машинна обработка. Публикуваните отворени данни трябва да са придружени с описание на използваната структура.

Мотиви: Използването на отворени файлови формати гарантира осигуряването на оперативна съвместимост, премахва на технологичните ограничения и осигурява възможност за повторното използване от най-широк кръг лица. Публикуването в машинно-читаем формат способства и насърчава автоматизираната обработка, с което се позволява извличането на полза от повторното използване на данните.

Пример: Положителен пример от настоящата практика е публикуването на оригиналните файловете с имотните декларации на лицата, заемащи висши държавни длъжности. Използването на (X)HTML и стилови трансформации с помощта на CSS или XSLT, доказва, че публикуването в суровия „изходен“ формат често е най-бързият и ефективен начин да се публикуват данните.

Примери за общоприети, базирани на текст, формати за публикуване на данни в структуриран вид са:

  • CSV (Comma Separated Values),
  • XML (eXtensible Markup Language),
  • JSON (JavaScript Object Notation) и
  • RDF (Resource Description Framework).

Негативен пример:  Следва да се избягва използването на файлови формати, които позволяват информацията да бъде видяна, без да бъде извлечена, обработена и използвана повторно. Практиката за публикуване на информация като изображения, Excel, Word, PDF и други двоични формати следва да бъде преустановена.

Описание на публикуваните данни

Препоръка: Публикуваните данни следва да се публикуват заедно с общо описание, правна информация, техническа документация и да са обогатени със семантични анотации и други мета-данни. За осигуряване на възможност за автоматизирано обновяване следва да се изгради схема за адресация и използване на непроменливи уникални ресурсни идентификатори (URI). Всяка логически обособена подсекция, следва да може да бъде адресирана отделно, чрез използване на отместване, anchor/id атрибути или XLINKs/XPointers връзки.

Мотиви: Доброто описание на данните улеснява възприемането на информацията, подпомага и насърчава повторното използване, и способства за реализиране на обществения и икономически потенциал. Поради тази причина всяка публикация следва да е придружавана от информация, която да позволява възприемането на съдържанието, предметната област, нивото на детайл, структурата и използваните конвенции за предаване на информацията. За създаване на правна сигурност, част от общото описание на данните следва да е и изричното изявление относно възможността им за повторното използване при условията на единен и общ Отворен лиценз.

Осигуряване на качество

Препоръка: Следва да бъдат предприети организационни мерки за осигуряването на високо качество на публикуваните данни, като се гарантира тяхната пълнота, истинност и актуалност. При проектирането и изграждането на информационните системи на администрацията, следва да се предвиди възможност за създаване на (ограничен) публичен интерфейс към хранилището на оригиналната информация. Следва да бъде разработен и наложен единен Отворен лиценз за публикуване на данни.

Мотиви: Предоставянето на (ограничен) достъп до данни, които се ползват за осъществяване на правомощията на държавните органи ще има за директен ефект намаляване на разходите, оптимизиране на процесите и осигуряване на качество на публикуваната информация.

Категория: свободни неща

9 коментара ↓

  • Хубаво ми е, когато хората коментират. Чета внимателно всеки коментар и отговарям, когато имам какво да кажа.

  • Мартин на 13.03.2013г. в 23:40ч.

    Достъпът до оригиналната информация е уместно да става само след обстоен контрол, за да няма риск да бъдат споделени лични данни. Най-лесно е да се дава достъп до обобщени (агрегирани) данни. Когато се дава достъп до индивидуални записи, дори те да са анонимизирани (частта от данните, които ги идентифицират да е изтрита или кодирана), трябва да бъде подсигурено, че на базата на изнесените данни идентичността не може да бъде възстановена. Ето един пример: ако става дума за български спортисти и бъдат публикувани възрастта, пола, расата, спорта и отбора. Ясно е, че ако имаме данни за чернокож спортист, по останалите параметри е много лесно да бъде разкрит кой е той. Ако ви изглежда, че примерът с расата е прекалено прост, можете да го замените с родно населено място. Когато записите с това свойство са малко, е лесно да бъде намерена частта от тях, която отговаря на определени условия. Ако не се лъжа това се казва псевдо-анонимност.

  • МиленГ на 14.03.2013г. в 01:26ч.

    Мартин:
    Не съм съгласен със широкото тълкуване на личните данни. Например, ако става дума за спортисти, получили над определена сума пари от държавата и правителството публикува списък с тях, трябва данните да са такива, че да всички да са точно идентифицируеми. Определено има данни, които може да се подтиснат и да не се публикуват – например раса, пол, религия и т.н., но тези данни не са кой-знае интересни за бизнеса.
    Аз смятам че ЕГН-то е един от проблемите на публичните данни. В него се съдържа много персонална информация (дата на раждане, окръг, пол) която реално не е необходима за целите на идентификацията на гражданите. От една страна за да работи бизнеса, всеки гражданин трябва да има уникално ID с което да се идентифицира в документите, а когато тези документи трябва да бъдат публични се получава противоречие – лични данни (ЕГН), а трябва да бъде публично. Според мен ЕГН трябва да се замени с друг номер, отново уникален, но не-съдържащ лични данни.

    Пеьо:
    Много добра рецепта за по-качествени отворени данни. Бих искал да поставя още два свързани въпроса:

    1. Различна степен на достъпност
    Според мен трябва да се направят няколко групи на достъпност на данните, и всеки поток данни да се класифицира в една от групите. Като идея предлагам следните групи:
    – напълно отворени данни. Те могат да се четат от всички граждани/лица и да се ползват за всякакви цели;
    – данни изискващи идентификация на лицето, което е получавало тези данни. Всички услуги, които се предоставят с подобни данни, дори и от трети лица трябва да отговарят на това условие.
    – данни изискващи идентификация на лицето, което получава данните и изискващи някакво заплащане.
    – отделно са данните, които държавата ще предоставя само на определени (правоимащи) организации/лица.

    2. Протоколи за достъп до данните
    Най-простия протокол е http:// – данните се качват на сайт и гражданите ги дърпат. Това обаче не е най-доброто решение, ако става дума за динамични данни. Например регистъра на фирмите по ДДС се получава като файл на определен период от време. По-добрия начин е поддръжката на web api та, чрез които потребителите да могат да достъпват малка порция от данни, чрез http(s) заявки. Според мен добра практика е при възможност да се използват прости RESTful протоколи. Поддръжката на 7/24 web api може да е проблем за ДА, затова колкото-толкова;)

    ===========================================

    Според мен, трябва да се направи една кръгла маса между представители на бизнеса, на гражданските организации и на държавата в която да се обсъдят и приемат основните положения:
    – Какви данни се публикуват в момента?
    – Какви данни се предвижда да се публикуват в близко и по-далечно бъдеще?
    – В какви групи според достъпа си ще попадат данните?
    – Какви протоколи ще се използват за достъп до данните?
    – Как да се организира „регистърът на регистрите“ – информацията за всички публикувани данни/апи-та?
    – Какви са допустимите формати за данните?
    – Какви да са форматите на полетата на данните – поне тези, които се използват от няколко източника?

    ………….

    За да има един такъв проект по-продължителен живот трябва предварително да се направят принципите и общата архитектура (Бялата книга) и тогава да се реализират отделните части.

  • Dr Serbezov на 14.03.2013г. в 01:52ч.

    Това за ЕГН и личните данни в него са пълни глупости.
    Във него има данни единствено и точно за работещо електронно правителство. Защо?
    ДАТАТА на раждане е важна за: датата на пълнолетие, което определя права за гласуване, шофиране, наказателна отговорност и т.н. ДАТАТА – не годината. По нея се определя и датата на пенсиониране.
    ПОЛ – ако се казвате Иван или Мария добре, но ако се казвате Бирсен Шабан? Но и МанЮнайтед да се казвате компютъра няма как да разбере имате ли право на болничен за нередовен мензис или нямате. Или на майчинство
    ОБЛАСТ – това е областта по месторождение. И какво? какви лични данни са това? Че майка ми е била в друга област като е дошло време да ме ражда? И сега трябва да ходя в друга област за да си извадя свидетелство за съдимост? Ааа, а ми то се вади и дистанционно!

    Лични данни са: РАСА, ЕТНОС, СЕКСУАЛНА ИДЕНТИЧНОСТ, РЕЛИГИЯ, ПОЛИТИЧЕСКА ПРИНАДЛЕЖНОСТ, СНИМКИ – БЕЗ ПАСПОРТНАТА, СЕКСУАЛНИ ПАРТНЬОРИ, ОБРАЗЦИ ОТ ПОЧЕРК/ПОДПИСИ, МЕДИЦИНСКИ ДАННИ, БАНКОВИ СМЕТКИ И ДАННИ и много много други, които нашата мила администрация охотно споделя дори по телевизията.

  • пейо на 14.03.2013г. в 07:49ч.

    @Мартин
    От една страна, въобще не е задължително масивите информация да съдържат данни за лица. Да, това е много чест случай и аз още нямам добър отговор къде трябва да е баланса между право на личен живот и обществен интерес да се знае. Примерно, лицата заемащи висши държавни длъжности са такива, за които обществото има причина да знае.

    Обаче, за общия случай, докато нямам отговор как трябва да се отнасяме с подобен масив, предпочитам да се концентрираме върху базите без лична информация за широк кръг лица (политиците, отново, са изключение)

    Т.нар. псевдо-анонимност, в областта на правото на защита на личните данни, това се наричат данни за непряка идентификация. В момента приет практически тест е, че една база не съдържа такива данни за непряка идентификация, ако заявка не връща по-малко от 100 записа. Това, обаче е истина само ако няма идентификатори, позволяващи свързване с други масиви. От където стигаме до ЕГН-то.

    @МиленГ и @Dr Serbezov
    ЕГН-то се третира като лични данни, не защото като поредица от цифри има лична информация, а защото позволява еднозначно навързване на различни бази от данни и съставяне на пълна картинка. Т.е. ако се организират различни парчета информация по този идентификатор, ще се получи информация за характеристики и сфери на личния живот, която иначе нямаше да може да се събере.

    Теоретично, това е проблем на представянето на знания:
    https://en.wikipedia.org/wiki/Open_world_assumption
    https://en.wikipedia.org/wiki/Closed_World_Assumption

    Практически проблем, който прави нещата доста по-сложни е че такъв доста добър идентификатор е и примерно email адреса на човек.

  • МиленГ на 15.03.2013г. в 13:07ч.

    @Пейо:
    Интересна теория за Open world vs Closed world. Изглежда човечеството се опитва непрекъснато да направи от една Open universe => Closed universe. Постоянно попълва базата си със неща от вида „На планетата Марс има/няма вода“ и т.н. Изглежда обаче, че природата така е направена, че никога не можем да направим ‘Closed universe’.

    Връщайки се се в ежедневието, аз си задавам въпроса – кое е добре за мен?

    Мотивация: Аз искам да живея добре, искам децата ми да живеят добре, искам да съм част от култура/националност която ще живее добре в дълъг исторически период, така че да има шанс да се родят други подобни на мен хора.

    Разсъждения: Понеже вярвам, че законите на еволюцията действат и в обществото, където животните и растенията са заменени от идеи, култури, нации, аз се опитвам да си представя България като устойчив, приспособим и ефективен организъм. За да действа ефективно този организъм, той трябва да е добре организиран, подреден. Едно от важните неща, за да може държавата да действа ефективно е, да може да идентифицира точно всеки един от своите граждани. Това нещо към момента е ясно и се прави от всички държави. Паспорта, личната карта, шофьорската книжка, ЕГН, номер на соц. осигуровка и т.н. се срещат в повечето от модерните държави.

    Теорема:
    (1) Уникалната идентификация е задължителна за всякакви видове договори между гражданите и/или държавата.
    (2) Някои от договорите трябва да са публични – например нотариалните договори, договорите за учредяване на дружества и т.н.
    От (1) и (2) следва, че уникалната идентификация на по-голямата група от населението е публично достъпна

    Аз не смятам, че системата става по-затворена, ако в публичните действия на гражданите се споменава техен уникален идентификатор.

    Негативен пример: Представете си, че в Търговския регистър отсъстват ЕГН-тата на собствените на фирмите. Каква би била ползата от него? Една фирма те завлича, собственикът и прави нова фирма и пак те завлича. Това би оскъпило и без това скъпите транзакции в България. Или пък някой залага апартамента на някой друг, само защото се казва със същите три имена като истинския собственик.

    ––––––––

    Допълнителни материали:

    Има два дежурни вопъла на защитниците на личните данни, които са против публичните регистри да съдържат ЕГН:

    1. Имайки ЕГН-то на човека „лошите хора“ могат да направят измама, използвайки го.
    Проблемът тук е във възможността да направят измама, а не в достъпа до ЕГН-то. Така или иначе в момента има хиляди възможности за сдобиване с ЕГН-то на човек. Това което е необходимо е не да се пази в полу-секретност ЕГН-то, а да се предотвратят възможностите за измами с него. Лесния достъп и организация до публичната информация, която съдържа ЕГН-тата на гражданите е именно стъпка в тази посока. Разбира се съдебната система също трябва да бъде на ниво.

    2. В ЕГН-то се съдържа лична информация. Преди време и за мислех като @Мартин, но веднъж ми се наложи да правя уеб приложение, което съдържа данни за активни хора – мъже и жени между 30 и 80 години. Тогава с изненада установих, че някои от жените не искат да си казват ЕГН-то. Наложи се да направим нов тип в данните за запис само на рожден ден (месец/ден). Сега мисля, че ако ЕГН-то е се замени с уникален номер без съдържание, много по-малко биха роптали срещу публикуване на информация съдържаща техния номер.

    ––––––-

    Идея за решаване на въпроса с ЕГН:

    Това за което се сещам е ЕГН да се замени във всички публични документи с номер на лична карта/паспорт/шофьорска книжка/чуждестранен паспорт, а държавата да предоставя лесен интерфейс за проверка по ID на документ, какви други документи има същото лице. Това е начин по който всички досегашни процедури и проверки биха вървели, но ще изисква значителни преработки в съществуващия софтуер.

    –––––––-

    Защо в България трябва да има уникален идентификатор за гражданите?

    В някои западни страни (и Австралия) публичните регистри посочват само имената на гражданина, евентуално годината на раждане и населеното място, където е родено лицето. Разликата с България е, че при нас фамилиите не са толкова уникални, колкото в други страни. Много от фамилните имена (както и моето) са всъщност произлизащи от малки имена на дядовци/прадядовци. Поради тази причина вероятността да има двама души с еднакви три имена в България е много по-голяма от колкото в страни, където фамилните имена са разнообразни.

  • пейо на 15.03.2013г. в 13:54ч.

    @ МиленГ
    Измислено е по-добре и работи:
    http://en.wikipedia.org/wiki/Zero-knowledge_proof

  • МиленГ на 15.03.2013г. в 15:09ч.

    Пейо:
    Разкажи ми как предлагаш идентификацията с нулево предаване на знания да замести уникалната идентификация на гражданите на една страна. Какви примери са ти известни ?

    Всъщност какъв е проблема и с какво се борим?

    В момента на мен ЕГН-то ми върши идеална работа. Липсват ми достатъчно публични данни свързани с ЕГН-то. Една от причините за това е, че има доста хора, които считат, че не трябва да има такива данни.

    Например, когато непозната фирма иска да влезем в определени търговски отношение, моите служители отварят Дакси и проверяват собствениците на фирмата, какви други фирми имат. След това проверяват дали имаме някаква история с тези фирми, дали някои от тях не са в ликвидация и т.н . Ако сделката е голяма, проверяват дали не е свързана с определени групировки или в имотния регистър да има ипотеки към техните банки. Работата на Дакси се осъществява благодарение на това, че информацията от ТР съдържа ЕГН на собствениците, а в имотния регистър търсенето е по ЕИК и ЕГН.

    Предположение:
    Каквито и технически неща да направим, големи списъци с граждани и уникални номера ще има и те ще се използват за най-различни цели.

    Пример:
    В големите социални мрежи, потребителите си имат уникално ID. С помощта на алгоритми могат да се изчистят голяма част от грешките в данните им и те да се използват за всякакви цели. Кой ще ги използва: правителствата, служители или собственици на социалните мрежи, хакери, купувачи на данни или други е друг въпрос.

    Отваряне на данните vs Криптиране:
    OK , с алгоритми и технологии може да се направи трудно, но не невъзможно създаването на големи бази с информация за граждани, но трябва ли заради тази опасност да се затруднява достъпа до публично значима информация? Според мен, ако всички не-секретни данни са лесно достъпни от всички граждани ще бъдат затруднени, а не улеснени злоупотребите с тях.

  • Мартин на 15.03.2013г. в 20:17ч.

    Това за което говорих се казва де-анонимизация и за него има много изписано онлайн, ако темата интересува някого, хубаво е да се погледне какво е свършено по нея вече: http://swildstrom.wordpress.com/2011/05/31/how-real-a-threat-is-de-anonymization/
    http://33bits.org/2012/12/17/new-developments-in-deanonymization/

  • Benito Horton на 27.04.2013г. в 01:14ч.

    Постоянните ресурси са физически (процесор, памет, устройства) или логически(файлове от данни, програми, таблици).Някои ресурси допускат съвместно използване на няколко процеса(процесора, паметта,дисковете), а други се “закрепват” към индивидуален процес за монополно използване за определено време(магнитна лента).По често възниква мъртва хватка при ресурси от втория тип.Причините за възникване на мъртва хватка при работа с ресурсите ще бъдат изложени със следния пример.Предполага се, че процес заявява ресурс преди да го използва.Ако ресурсът не свободен, процесът се блокира.Или процесът се ръководи по схемата:заяви ресурс, използвай ресурс, освободи ресурс.Нека два процеса А и Б да споделят два ресурса p1 и p2.Всеки един от тях е заявил и е получил по един ресурс, след което е заявил и чака за следващ ресурс, но не освобождава своя (фиг. 4.1а), т. е. възниква мъртва хватка.