🎙 Episodio 25. Cómo utiliza Hacienda el Big Data

En el episodio de hoy de Un podcast ninja sobre Big Data vamos a hablar de impuestos y de cómo utiliza Hacienda los datos de los que dispone, de dónde los saca y, en definitiva, cómo persigue mejor el fraude gracias al Big Data.

El origen de los impuestos

Pero empecemos por el principio… en sus inicios la recaudación de tributos consistía en unos amables inspectores recorriendo las tierras e inspeccionando la cosecha de cada agricultor. En función de lo que veían decidían llevarse una parte para poder costear los gastos del Estado (gastos de guerra, construir navíos, esas cosas…)

Algunos campesinos que veían la guerra y los navíos como algo lejano que ni les iba ni les venía y  les había costado mucho esfuerzo sacar adelante su cosecha a veces, escondían parte de lo que habían conseguido. Cuando venían los inspectores les decían que ese año les había ido fatal para que  así los inspectores se llevaran menos grano.

Los inspectores, que tampoco eran tontos, tenían que buscar lo que faltaba de la cosecha  para llevarse lo que realmente le correspondía tributar al agricultor.

Unos cuantos cientos de años más tarde…

Cambiamos grano por dinero y la situación es más o menos similar. 

Más gente hace que no haya suficientes inspectores para visitar a todo el mundo para mirar que hay debajo del colchón.

Así que las declaraciones se hacen en papel.

Los ciudadanos las presentan cuando sea que tienen que presentar cada impuesto  y los inspectores pasan manualmente los datos de las declaraciones de impuestos en papel a un repositorio.

Es mejor que tener que ir a visitar a casa a todo el mundo pero bueno, aún se puede mejorar un poco más.

En ese caso los datos eran estancos.

Lo que recaudaba el grupo que se encargaba de las empresas no lo sabía el grupo que se encargaba de impuestos de renta de las personas o de los impuestos de vehículos o del impuesto que fuera.

Era muy difícil saber si todo el mundo estaba cumpliendo o no sus obligaciones tributarias y los controles de inspección eran más aleatorios.

La cuestión es que era complicado detectar el fraude cuando los datos eran estancos.

El proyecto Zújar

Sería mucho más eficiente si los datos de cada impuesto y cada contribuyente estuvieran disponibles para el resto de los grupos de la Administración Tributaria.

Así se podría tener una visión más de conjunto y se podría hacer un análisis más descriptivo del estado de los impuestos por parte de Hacienda.

Y así, hace más de 10 años nació el proyecto Zújar

Si recordáis del episodio de la semana pasada en el que hablábamos sobre ingeniería de datos decíamso que los datos podían guardarse en almacenes o en lagos de datos dependiendo de si habían sido transformados y estaban listos para usarse o eran los datos en crudo sin más.

El Zújar es un pantano situado en la provincia de Badajoz y además es el lago de datos de la administración tributaria española.

Zújar es una especie de almacén de almacenes de datos, estos almacenes más pequeños se conocen internamente como zújares.

Está el zújar de inmuebles, el de contribuyentes, el zújar de deudas, uno para facturas declaradas, un zújar de ITVs, hay un zújar para lo que sea que os imaginéis.

Hay más de mil y pico zújares.

Zújar, el motor analítico de la Administración, en números

Para que os hagáis una idea de los volúmenes de datos que se manejan en Zújar... Hace 2 años, en 2020, ya había más de 16000 tablas, algunas con más de 18000 columnas y 9000 millones de registros.

Datos de 10 ejercicios, con más de 50 millones de contribuyentes y 300 millones de relaciones.

Y datos que no paran de crecer.

Si recordáis también del episodio de la semana pasada cuando hablábamos de la carga de datos, existen dos tipos y Zújar soporta los dos.

En Zújar se soportan tanto cargas online que suceden 24/7 como cargas en bloque de otros almacenes de datos, unas 29000 cargas mensuales que modifican o añaden un promedio de 200000 millones de registros al mes, y que se programan por las noches y fines de semana.

Además Zújar incorpora un motor de análisis que permite a los miembros de la administración con los permisos adecuados hacer consultas al almacén de datos, cruzar resultados, etc…

¿De dónde saca la Administración Tributaria los datos?

Pues principalmente de los propios contribuyentes cuando presentan sus declaraciones de impuestos.

¿Eso que decíamos antes de que se presentaban las declaraciones de impuestos en papel y luego una persona lo pasaba a mano?

Pues ahora al hacerse de manera telemática, la ingesta de datos se realiza de forma automática.

Además los bancos cada año le giran el saldo en cuenta que tenemos al final del ejercicio, con información sobre inversiones o cualquier otro producto financiero que tengamos. 

La ley también dice que el banco debe informar a la Agencia Tributaria cuando se producen cierto tipo de operaciones.

  • Si usamos billetes de 500€
  • Operaciones de más de 10000€
  • Pagos y cobros de más de 3000 euros cuando se hagan en metálico.

Además las empresas también le giran los datos sobre las nóminas de sus trabajadores.

Y no solo eso sino que hay intercambios de datos entre la Administración Tributaria y otras administraciones públicas como la Secretaría General de universidades, la Seguridad Social, notarios e incluso se producen intercambios automáticos de datos internacionalmente.

Hacienda también obtiene datos regularmente de portales como AirBnB o booking. Se envían periódicamente, la identificación del titular de la vivienda y del anfitrión, de los huéspedes, de la propia vivienda que se anuncia en el portal y obviamente, el importe percibido por el anfitrión.

Y para tener aún un visión más completa la Administración Tributaria puso en marcha el Proyecto RIFA, que viene de Recolección de Información de Fuentes Abiertas a partir del cual es capaz de extraer datos directamente de Internet.

Todo eso va a Zújar.

Casos de uso del Big data

 ¿Y qué consigue la Administración Tributaria con todos estos datos?

Pues para empezar, con exacta puntualidad y precisión, nos facilita todos los años, nuestro borrador de renta con los datos sobre todas nuestras cuentas bancarias.

Además de ser más cómodo, desde Hacienda han comprobado que un contribuyente es menos propenso a cometer errores u omisiones en su declaración cuando ya ve que la Agencia Tributaria dispone de todos o casi todos los datos.

Pero además, tiene en marcha varios proyectos para la detección del fraude como el Proyecto Nidel y el proyecto Hermes entre otros.

Proyecto Nidel

Nidel es una herramienta que utiliza análisis de grafos para encontrar estructuras y relaciones indirectas en redes de millones de nodos. Mediante este análisis de grafos, se puede calcular la riqueza de individuos a partir de sus participaciones en empresas, por ejemplo. 

Se usa especialmente en casos de personas que tienen asuntos pendientes con Hacienda que para no pagar dicen que no tienen nada y que están arruinados aunque en realidad disponen de bienes pero a nombre de otros.

Proyecto Hermes

Por otro lado, Hermes utiliza los datos de Zújar para obtener modelos predictivos de riesgos de los contribuyentes. La idea es clasificar y perfilar a los contribuyentes y detectar anomalías en los datos que permitan mejorar la detección de fraude por parte de la Administración.

Estos modelos predictivos de riesgo, modelos de clasificación y perfilado de los contribuyentes y detección de anomalías es dónde podría estar aplicándose el Machine Learning y la Inteligencia Artificial.

Estos modelos predictivos tienen limitaciones y varias implicaciones a tener en cuenta, especialmente para el caso de detección de fraude.

Por un lado, hay que darle mucha importancia al sesgo que puede haber en los datos de entrenamiento. Este sesgo se introduce al entrenar al sistema con casos de fraudes conocidos por lo que no podría detectar tipos de fraude que aún no se han inventado o que no se conocen.

Al final no sabemos lo que no sabemos.

Los defraudadores son gente muy imaginativa y la variación temporal en el comportamiento del contribuyente es elevada.

Puede ser que para cuando quiera utilizar un modelo, pues ya la gente no se comporta como cuando se comportaba cuando se recolectaron los datos sobre los que se entrenó.

Además es importante medir el impacto de una predicción incorrecta o sesgada por parte del sistema.

Por ejemplo, imaginad que el sistema predice que un contribuyente está en situación de fraude y se embarga su cuenta sin más comprobaciones. En el caso que predicción fuera errónea tendría un gran riesgo para el contribuyente.

Espero que os guste el episodio 

Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast. 

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.

🔎 Pliego de prescripciones técnicas en los ámbitos del Sistema de Análisis de la Información, Big Data, Minería de Datos y Tecnologías del Lenguaje

🔎 Memoria Tributaria 2020

Accede a todo el contenido premium

Ya no necesitas pagar cientos de euros por un Bootcamp para convertirte en ninja de los datos. Por solo 17€/mes (o menos 🤯), obtén acceso al podcast premium, a todos los tutoriales y a los resúmenes de los libros más top sobre Machine Learning y Ciencia de datos y aprende a tu ritmo.
¡Empieza ahora!
Copyright © 2024  · Datos 🥷 · Todos los derechos reservados