During the last two years, I have participated in the project of implementing open government policies in local authorities in Catalonia, within the framework of the “Network of Transparent Local Governments of Catalonia” and we have promoted the opening of public information ensuring open formats, interoperability, standardization, reusability, and good data quality.

We have done it by applying the “once only” principle of efficiency: that is, we do not ask local administrations to publish data that has already been reported previously to province, regional, or federal administrations: we have contacted them, and we have requested the opening of their consolidated data for all the local administrations about budgets, personnel, debt, subsidies, contracts, etc. This information has been made available on a shared open data platform, and more than 1,000 local public authorities that use the transparency service of the Open Government of Catalonia, have this information automatically published and regularly updated on its website, without the need to perform any additional task.

From this experience, I would like to present a list of the main barriers, attitudes, or “syndromes” that have shown up during the process of opening consolidated public data. According to the Collins dictionary, a “syndrome” is a group of symptoms that, together, are signs of a certain specific disorder or disease. Here is the list of “syndromes”:

Raiders of the lost law. Nobody in Spain mentions, remembers, comprehends what it says, or knows where to find the Directive on the re-use of public sector information (Directive 2003/98/EC entered into force in 2003 and revised by Directive 2013/37/EU, which came into effect on 2013). Their obligations are almost unheard of. Apparently, after its approval, this Directive was lost in the secret valley of the Well of the Souls in Egypt, next to the lost ark.

Gollum’s syndrome. In the movie, Lord of the Rings, the ring is “my treasure” and transforms the owner in a powerful but selfish person, obsessed with not sharing it and paranoid about “losing” it. It happens the same way with the government data. There are roles in the authorities that have spent their lifetime preserving and protecting the government data, and now suffer from “paranoia” when someone wants to make it open. The famous sentence, the “data belongs to citizens” is a chimera for them.

Kilian Jornet syndrome. The list of difficulties that show up when trying to open the public-sector data seems longer and more complicated than climbing Mount Everest, twice in a week, without artificial oxygen, as the famous Catalan climber, Kilian Jornet, did in May 2017. The data “guardians” claim privacy problems, poor data quality (with the risk of giving a very bad image), technological difficulties, high costs, that no one needs it, and so on. An extensive list of excuses: as Kilian Jornet says, “I do not look for excuses to train, do you?”

Twin Peaks syndrome. As in the Twin Peaks series, nothing is as it seems and at every step, there is a surprise. Data controllers agree to share the information in an open data format, but our initial satisfaction is transformed when we realize that it is only made available in PDF format. They are “semi-open” data, but quite “dark” data because they are not easy to exploit and analyze.

Forest Gump syndrome. This fictional character unintentionally became a world champion of ping-pong with a very simple strategy: to return all the balls and to defeat to the contrary by exhaustion. In the public authorities, we have many “Forest Gump” experts in the art of returning ping-pong requests. They are asked to share information in an open data format and respond, but with a different thing that obviously is not what we have asked for. We return the ping-pong ball with more energy and precision, and return it to us on the other side of “the table”, but continue to be of little use. And so, on and on, until we give up in exhaustion.

“Home alone” syndrome. We, sometimes, get this answer: of course, you can access “my public” information, but at my “home” alone (website). To access the data, we should create a link to “their house” and thus, it is evident who the “owner” of the data is and, moreover, the visitor counter of “their website” goes up.

Syndrome of the Despacito. You can access the data, and you can even download it in open and structured data files (CSV or spreadsheet) using a search engine but, as the song says, “despacito” (slowly). A restriction has been implemented in the search engine that only allows downloading the information in “little bits” of a few hundred records at a time, due to some strange technological limitations and so that no one gets filled up with too much data. If someone wants to do a global analysis of the data, they can do it, but “pasito a pasito” (step by step).

The Da Vinci Code syndrome. The data are all available in an open format, structured and standardized. It seems that we have finally succeeded, but we are surprised that some of the key codes to solve some puzzles are missing: for example, in a contractor’s database, the company code is missing, and we only have access to the name. As each public authority may have written the name of the company differently, it would be very complicated to do data crossings and analytical reports. Not even a Da Vinci’s genius would get it: for example, to analyze all contracts awarded to a company in various Administrations.

“Others have it bigger” syndrome. Excuse the foul language, but it is a very graphical expression. We eventually get to publish a data set of, for example, all the information about the budget of all the local administrations of Catalonia in open, interoperable, standardized, with all the key code data, etc. But then, it shows up an alleged expert who elaborates open data rankings that disregards it because it is only a single dataset, and puts as an example of good practice the authorities that have published hundreds of datasets. Apparently, the more the better. Analyzing the supposed good practices, we see that there are open data portals that have a dataset for each entity, for each year and for a very specific concept (for example, the budget of expenses by one of the three concepts of the Spanish accountability). Well, if we used this criterion, a single dataset of the budget of all local governments of Catalonia would become at least 30,000 datasets: (+1000 local entities) x (10 years of budget history) * (3 concepts). But what is the most useful if you want to do a comparative analysis per year or between local authorities?. I think, the simplest is the best.

Despite the difficulties, I believe that an excellent job has been done, as we have managed to publish 35 sets of open data, with consolidated information for all the local authorities of Catalonia, although certainly much remains to be done. As Confucius said, “the man who moves a mountain begins by carrying away small stones”. There we are.

Note: Thanks to Josep Matas

Síndromes de la apertura de datos públicos: de Gollum al Despazito

Durante los dos últimos años he participado en el proyecto de implantación de la transparencia en las entidades locales de Cataluña, en el marco de la “Red de Gobiernos Locales Transparentes de Cataluña” y hemos impulsado la apertura de la información pública en formatos abiertos, fácilmente reutilizables, interoperables, estandarizados y de calidad.

Lo hemos hecho aplicando el principio de eficiencia “once only” (solo una vez): es decir, no volver a solicitar a las administraciones locales que publiquen los datos que ya han comunicado, en algún momento, a una administración supramunicipal o superior: no hemos dirigido a éstas y hemos solicitado la apertura de sus ficheros que contienen los datos consolidados de todas las administraciones locales: presupuestos, personal, deuda, subvenciones, contratación, etc. Esta información la hemos puesto a disposición en una plataforma compartida de datos abiertos y, las más de 1.000 entidades locales usuarias del servicio de Transparencia del Consorci AOC, disponen de esta información publicada automáticamente y actualizada periódicamente en su portal, sin necesidad de realizar ninguna tarea adicional.

Os presento a continuación un listado de las principales barreras, actitudes o “síndromes” que han dificultado este proceso de apertura de los datos públicos en poder de una administración supramunicipal o superior. Según la Real Academia Española, un “síndrome” es un conjunto de signos o fenómenos reveladores de una situación negativa.

Síndrome de “En búsqueda de la Ley perdida”. Nadie menciona, ni sabe lo que dice, ni recuerda, ni tiene en cuenta la Ley 37/2007, sobre reutilización de la información del sector público. Hace diez años de su aprobación, pero sus obligaciones son unas perfectas desconocidas. Parece ser que, tras su aprobación, esta Ley se perdió en el valle incógnito del pozo de Almas en Egipto, junto al arca perdida.

Síndrome de Gollum. Como en la película de “El señor de los anillos”, el anillo es “mi tesoro” y se convierte en una persona poderosa y, al mismo tiempo, egoísta, obsesionada en no compartirlo y paranoica con que nadie se lo quite. Con los datos pasa lo mismo. Hay roles en la administración cuya función ha sido toda la vida conservar y proteger los datos, y sufren de “paranoias” cuando alguien los quiere “tocar”. Aquello de que “los datos son de los ciudadanos” es una quimera.

Síndrome de Kilian Jornet. La lista de dificultades que se exponen para no implantar la apertura de los datos del sector público parece más larga y compleja que escalar el Everest. Los responsables de los ficheros aducen problemas de privacidad, mala calidad de los datos (con el riesgo de dar muy mala imagen), de dificultades tecnológicas, que tendrá un coste económico grande, que nadie lo necesita, etc. Una larga lista de excusas. Como dice Kilian Jornet “yo no busco excusas para entrenar ¿y tú?”

Síndrome de Twin Peaks. Como en la serie de Twin Peaks, nada es lo que parece y a cada paso hay una sorpresa. Los responsables de los datos aceptan compartir la información en formato de datos abiertos, pero nuestra satisfacción inicial se transforma cuando se comprueba que únicamente se ponen a disposición en formato PDF. Son datos “semiabiertos”, tirando a “oscuros” porque no son nada fáciles de explotar y analizar.

Síndrome de Forest Gump. Este personaje de ficción se convirtió por casualidad en un campeón mundial de ping-pong con una estrategia muy simple: devolver todas las pelotas y vencer al contrario por agotamiento. En la Administración tenemos muchos “Forest Gump”, expertos en el arte del ping-pong de las solicitudes. Se les pide que compartan la información en formato de datos abiertos y responden, pero con una cosa diferente que, evidentemente, no es lo que hemos pedido. Devolvemos la pelota de ping-pong con más energía y precisión, y nos la devuelven por otro lado de “la mesa” pero continúa siendo poco útil. Y así repetidamente, hasta que desistimos por agotamiento.

Síndrome de “Solo en (mi) casa”. Por supuesto que puedes consultar “mi” información pública, pero “solo en mi casa”. Para consultar los datos debes crear enlace de tu web a “mi casa”, dónde hay un buscador para acceder a ella, y así queda muy claro quién es el “amo” de los datos y así, además, el contador de visitas a “mi web” sube.

Síndrome del “Despazito”. Puedes acceder a los datos e incluso te los puedes descargar en ficheros de datos abiertos y estructurados (CSV u hoja de cálculo) desde un buscador, pero “despazito”. Se ha implantado una restricción en el buscador que solo permite descargar la información en “trozitos” de pocos centenares de registros, por supuestas limitaciones tecnológicas y para que nadie se empache de tantos datos. Si alguien quiere hacer un análisis global de los datos, lo podrá hacer, pero muy “despazito”.

Síndrome de “El Código Da Vinci”. Los datos están todos disponibles en formato abierto, estructurado y estandarizado. Parece que finalmente lo hemos conseguido, pero nos encontramos con la sorpresa que faltan los códigos clave para resolver algunos enigmas: por ejemplo, en un fichero datos de contratación con las licitaciones de todas las entidades locales no se publica el código del NIF/CIF de la empresa adjudicataria, solo el nombre. Como cada administración ha escrito el nombre de la empresa de forma diferente, será tan complicado hacer análisis y cruces de datos que ni el genio de Da Vinci lo conseguiría. Por ejemplo, analizar todos los contratos adjudicados a una determinada empresa en diversas Administraciones.

Síndrome de “Los otros la tienen más grande”. Disculpar el lenguaje soez, pero es una expresión muy gráfica. Cuando finalmente se consigue publicar un conjunto de datos de, por ejemplo, toda la información de la liquidación del presupuesto de todas las administraciones locales de Cataluña en formato abierto, interoperable, estandarizado, bien codificado, etc, aparece algún “experto” que elabora ránquines de datos abiertos que lo desprecia porque es solo un único dataset, y pone como ejemplo de buena práctica a otras administraciones que tienen centenares de datasets. Analizadas esas supuestas buenas prácticas, vemos que hay portales de datos abiertos que publican un dataset por cada entidad, para cada año y por concepto detallado (por ejemplo, el presupuesto de gastos por capítulo económico). Bien, si utilizáramos este criterio, un único dataset de la liquidación del presupuesto de todas las administraciones locales de Cataluña se convertiría en, como mínimo 30.000 datasets: (+1000 entidades locales) x (10 años de historia de presupuestos) * (3 conceptos: ingresos, gastos por clasificación económica, gastos por programa). Pero, ¿qué es lo más útil si se quiere hacer un análisis comparativo por año o entre ayuntamientos?

A pesar de las dificultades, creo que se ha hecho un excelente trabajo, se ha conseguido publicar 35 conjuntos de datos abiertos, con información consolidada de todas las administraciones locales de Cataluña, aunque ciertamente queda mucho por hacer. Como decía Confucio “el hombre que mueve montañas empieza apartando piedrecitas”. Ahí estamos.

Nota: Agradecimientos a Josep Matas