Analizar importar datos de Catálogo Nacional de Datos Abiertos #26

danielcarranza · 2015-07-01T14:20:48Z

Los datos son:
https://catalogodatos.gub.uy/dataset/datos-de-responsables-de-transparencia

alfius · 2016-01-12T18:03:44Z

@danielcarranza La idea sería agregar los datos del csv "Datos de responsables de transparencia 2015" y actualizar los emails que tenemos, creando también las instituciones que falten, no? Hay que considerar también la columna Activo/Pasivo? Algún otro detalle a tener en cuenta?

@picandocodigo tenemos algo hecho de esto ya?

danielcarranza · 2016-01-12T18:06:28Z

Exacto, que de ese dato, cada vez que se actualiza, podamos actualizar el sitio. Vale aclarar que tenemos buenos contactos en UAIP, si conviene pedir que lo publiquen de otra forma, por ejemplo.

Lo de activo/pasivo no nos importa, sólo organismo y correo del responsable.

picandocodigo · 2016-01-12T18:12:05Z

@picandocodigo tenemos algo hecho de esto ya?

Creo que no hay nada hecho no.

alfius · 2016-01-12T20:04:43Z

@danielcarranza para que se actualice automáticamente ellos tendrían que exponer una API y nosotros consumirla. Eso me parece que nos deja un poco vulnerables porque ante cualquier descuido, un hacker puede borrar todas las direcciones o apuntarlas a otro lado. Además por lo que veo estos datos cambian solo una vez al año.
Lo que se me ocurre es escribir un script que haga la importación y que alguien se encargue de correrlo una vez al año revisando todo con cuidado. Esto así como está ya lo podríamos hacer, pero una cosa que ayudaría sería pedirle a la UIAP que sean consistentes con el formato de los CSV, que veo que del 2014 al 2015 ya hubo cambios en las columnas y sus nombres.

danielcarranza · 2016-01-13T20:46:01Z

Perdón la demora... CKAN (el software sobre el que corre el catálogo de datos) tiene una API (http://docs.ckan.org/en/ckan-2.4.0/api/) mal mi la omisión. No me queda del todo claro cómo nos deja vulnerables pero no entiendo nada :)

igual lo del script me parece bárbaro también, la idea era automatizarlo y olvidarse, también porque -deberían- actualizar más seguido ese juego de datos.

Sobre la consistencia, ya me pongo en contacto para arreglar eso o ver si hay planes de cambio para 2016.

danielcarranza · 2016-01-14T20:54:51Z

@alfonsocora me dicen de UAIP que con el formato hacen lo que les pidamos. ¿El de 2015 te parece OK o nos serviría pedir algo en especial?

alfius · 2016-01-14T20:55:43Z

@danielcarranza buenisimo lo de la API! Eso nos permite saber cuando hay una nueva actualización. Dejo por aca el link para futuras referencias:

curl -s https://catalogodatos.gub.uy/api/3/action/package_show?id=datos-de-responsables-de-transparencia | python -m json.tool

Igualmente el formato de los archivos que devuelve la API sigue siendo ese CSV fiero, que igualmente con un poco de esfuerzo de puede parsear, pero necesitaríamos consistencia para hacerlo automático. Además es bastante lento porque tiene un montón de columnas vacías.

La vulnerabilidad viene por el hecho de recibir por internet algo tan básico para que nuestro sistema funcione. Si alguien hackea el sitio del catálogo por ejemplo, puede rompernos el sitio editando todas las direcciones de email. O si alguien del catálogo sube mal el csv (que ya tiene un formato loco), también puede darnos problemas.

Avanzando un poco con el script, me encontré con que nuestros datos no estan normalizados, o sea, el catálogo expone las instituciones con el nombre exacto que deberían tener (por ej "Dirección General de Presidencia de la República"), pero en nuestro sistema tienen nombres arbitrarios (por ej "Presidencia"). La categorización también es diferente. Esto es algo que tendría que cambiar en nuestro sistema para que la integración funcione. Si te parece bien, yo puedo hacer esa normalización basándome en el CSV y los datos que tenemos. Capaz que alguna que otra te tengo que preguntar :)

danielcarranza · 2016-01-14T21:04:55Z

¡PERFECTO! Me encantó y aparte ganamos en que usemos los mismos nombres que UAIP que es una fuente oficial. Divino.

Para UAIP entonces el pedido sería "sigan así (nosotros nos adaptamos a los nombres)" y no sean delincuentes y publiquen el CSV sin todas esas columnas vacías al pedo*". ¿No?

*La redacción puede variar ligeramente :P

alfius · 2016-01-14T22:01:32Z

jajajaja, exacto! (con un poco más de sutileza 😛)

danielcarranza · 2016-01-15T02:06:08Z

Hecho, te cuento cómo me va.

danielcarranza · 2016-01-15T17:37:47Z

Listo el pollo, en febrero sale versión 2016 con el formato de 2015 menos las columnas 👍

alfius · 2016-01-15T18:54:35Z

@danielcarranza que grande!!! 👏 👏 👏
Gracias! 😄

alfius · 2016-01-27T00:27:08Z

@danielcarranza bueno, después de varias luchas con ese csv, tengo medio andando la migración. Acabo de subir al sitio de pruebas una base de datos extraída de producción, adaptada para la última versión de Alaveteli y con la importación de datos de la UAIP, que trae nombres de organismos, emails y categorías. Esto último queda un poco abierto a nosotros porque Alaveteli nos deja ponerle titulos a las categorías y agruparlas, todo esto desde el admin. Aca yo sólo creé "Ministerios" e "Intendencias", pero se pueden crear otras.
Un comentario más, pasa varias veces que hay más de un email de contacto para un organismo. El script por ahora se queda solo con el primero. Eso está bien?
Bueno, después pegale una vichada y me avisas. Un abrazo!

danielcarranza · 2016-01-29T13:28:36Z

¡Perfecto! Mil gracias maestro.

danielcarranza assigned picandocodigo Jul 1, 2015

danielcarranza closed this as completed Jul 1, 2015

danielcarranza reopened this Jul 1, 2015

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Analizar importar datos de Catálogo Nacional de Datos Abiertos #26

Analizar importar datos de Catálogo Nacional de Datos Abiertos #26

danielcarranza commented Jul 1, 2015

alfius commented Jan 12, 2016

danielcarranza commented Jan 12, 2016

picandocodigo commented Jan 12, 2016

alfius commented Jan 12, 2016

danielcarranza commented Jan 13, 2016

danielcarranza commented Jan 14, 2016

alfius commented Jan 14, 2016

danielcarranza commented Jan 14, 2016

alfius commented Jan 14, 2016

danielcarranza commented Jan 15, 2016

danielcarranza commented Jan 15, 2016

alfius commented Jan 15, 2016

alfius commented Jan 27, 2016

danielcarranza commented Jan 29, 2016

Analizar importar datos de Catálogo Nacional de Datos Abiertos #26

Analizar importar datos de Catálogo Nacional de Datos Abiertos #26

Comments

danielcarranza commented Jul 1, 2015

alfius commented Jan 12, 2016

danielcarranza commented Jan 12, 2016

picandocodigo commented Jan 12, 2016

alfius commented Jan 12, 2016

danielcarranza commented Jan 13, 2016

danielcarranza commented Jan 14, 2016

alfius commented Jan 14, 2016

danielcarranza commented Jan 14, 2016

alfius commented Jan 14, 2016

danielcarranza commented Jan 15, 2016

danielcarranza commented Jan 15, 2016

alfius commented Jan 15, 2016

alfius commented Jan 27, 2016

danielcarranza commented Jan 29, 2016