Оценка факторов, влияющих на увеличение или уменьшение трудозатрат на проведение работ по переводу JUL в формат “пять звезд”
Анализ ОД и выделения приоритетных для перевода в ОСД
Вводные замечания
Есть «Методика мониторинга и оценки востребованности открытых данных» [1], которой придется до какой-то степени следовать.
Отталкиваться, по-видимому, придется от того, что есть или что может быть у ОИВ уже опубликованного в виде открытых данных:
- что должно быть опубликовано [2] (Распоряжение Правительства РФ от 10 июля 2013 г. N 1187-р); - что хотели, чтобы было опубликовано [3] (приложение к «Плану мероприятий „Открытые данные Российской Федерации“ на 2015–2016 гг.»); - что в принципе есть у ФОИВ [4] (обследование ВШЭ).
Стоит отметить ограниченную применимость понятия «набор данных», когда речь идёт о «связанных данных». Зачастую целесообразность публикации того или иного набора в виде RDF определяется возможностью совместной публикации целого ряда наборов.
Некоторые виды более или менее структурированных сведений, обязательных к раскрытию всеми ФОИВ, в список первоочередных наборов ОД не входят. Самый яркий пример — сведения о бюджетах ФОИВ. Перепубликация в виде RDF «Открытых бюджетов» не кажется задачей первостепенной или легкой. Других интересных видов сведений в списках подобного рода видов сведений на gosmonitor.ru [5] и infometer.ru [6] обнаружить не удалось.
Типовые федеральные наборы
По-видимому, более-менее легко опубликовать в виде RDF можно наборы 1 и 2 из числа обязательных федеральных: перечни территориальных органов и перечни подведомственных организаций.
Опубликовать их можно в соответствии с «The Organization Ontology» (такой опыт есть у ФССП), сделать геопривязку, попутно опубликовать различные справочники должностей и пр.
Требует изучения вопрос о составе персональных данных работников ФОИВ, которые можно безбоязненно опубликовать в соответствии с законодательством. Общее решение неизвестно, однако для отдельных ФОИВ этот состав весьма расширенный.
Два указанных выше набора можно использовать как опорные при публикации перечней вакантных должностей (набор 6).
Также весьма легко можно опубликовать в виде RDF, а именно, в виде RDF Data Cubes, набор № 6 из числа обязательных федеральных: статистическую информацию, генерируемую ФОИВ в соответствии с ФПСР.
Различные реестры проверок (наборы №№ 3 и 4) по мнению участников голосования в целом достаточно перспективны. Однако кажется, что для их публикации в виде RDF нужен опубликованный ЕГРЮЛ. Или нет, и мы публикацией этих реестров в RDF можем задать некие требования к тому, как будет выглядеть опубликованный в RDF ЕГРЮЛ?
Кажется также, что удобнее было бы иметь дело не с отдельными множественными ФОИВ, а с агрегирующим их седения о проверках ресурсом Генпрокуратуры proverki.gov.ru [7].
Реестры лецензий (набор № 7) находятся к ЕГРЮЛ в аналогичном отношении. Централизованного ресурса тут вроде бы нет. Онтология для публикации лицензий, например, ФСТЭК не выглядит тривиальной.
Нетиповые федеральные наборы
У ФОИВ могут быть свои уникальные наборы, не входящие в число стандартных федеральных, перспективные с точки зрения публикации в RDF.
Критерии отыскания таких наборов, по-видимому, следующие:
- «техническая предрасположенность» к публикации в виде RDF; - отсутствие препятствий к публикации в виде RDF; - востребованность набора, опубликованного в виде RDF.
Конкретизировать эти критерии можно следующим образом:
- данные имеют отчетливо графовый характер; - есть возможность использовать при публикации различные фолксономии (например, Викидата); - есть возможность использовать при публикации (легковесные) стандартные отнологии; - сами данные имеют характер нормативно-справочной информации; - объем данных достаточно велик (можно взять критерий включения в LOD Cloud: от 1000 триплетов); - данные изменяются не слишком часто.
Особо интересные ФОИВ
C этой точки зрения перечисленных выше критериев обладателями перспективных уникальных наборов являются ФОИВ – владельцы НСИ и ФОИВ, имеющие зарубежных «коллег», проделывавших аналогичную работу.
По моим оценкам, наибольшими объемами НСИ владеют:
- Федеральное казначейство; - Федеральная налоговая служба; - Росстат; - Росстандарт.
При работе с владельцами НСИ можно пытаться апеллировать к Постановлению Правительства РФ от 14.09.2012 № 928 «О базовых государственных информационных ресурсах».
В качестве примера ФОИВ, имеющего зарубежных коллег, сталкивавшихся с проблемами публикации своих данных в виде RDF, можно указать, например, Минюст, и есть целая книжка авторства Núria Casselsa, называющаяся «Legal Ontologies Engeneering».
Для начала было бы интересно опубликовать граф зарегистрированных в Минюсте нормативных правовых актов с указанием, что во что вносит изменения, что во исполнение чего издано и т. д. В перспективе можно было бы и вовсе уничтожить рынок нормативно-правовых сервисов, подобно тому как мы собираемся уничтожить рынок сервисов проверки контрагентов…
Отдельно отмечу, что представляется желательным расширение списка федеральных организаций, имеющих обязанности по публикации открытых данных, с ФОИВ до ГРБС [8]. К ГРБС относятся все ФОИВ, но также и некоторые другие институции. Например, Эрмитаж, Третьяковская галерея, отделения РАН, МГУ и СПбГУ. У перечисленных ГРБС есть очень интересные данные и дееспособность. Было бы здорово, например, если бы Эрмитаж создал что-то подобное точке доступа [9] Британского музея.
Типовые региональные наборы
Единственным более-менее переспективным типовым региональным набором кажется набор № 12: реестр образовательных учреждений.
Похоже, есть принципиальные причины по которым у субъектов РФ нет интересных типовых или уникальных наборов, тем более перспективных с точки зрения публикации в RDF.
По-видимому, участие субъекта РФ возможно лишь следующим способом:
- субъект РФ выступает площадкой для публикации муниципальных данных: муниципальные данные как раз могут быть интересны, но технические возможности для самостоятельной публикации у муниципального образования скорее всего отсутствуют - ВРОИВ публикует данные РОИВ; субъект РФ выступает «местом связывания» данных.
Следует иметь в виду, что обычно ВРОИВ может заставить РОИВ что-то сделать, но заставить что-то сделать территориальный орган ФОИВ — не очень. Тем не менее, имеются пристойные региональные порталы открытых данных. Быть может, эти регионы смогли бы создать пристойные «порталы связанных данных».
На существующих региональных порталах данные не очень «связанные». Некая «связь» и взаимообогащение есть в закрытых региональных системах, но данные там в основном уже статистические, что не очень перспективно с точки зрения первоочередной публикации в виде RDF.
Более-менее публичные единые хранилища данных с «сырыми» данными есть у Москвы и Санкт-Петербурга.