馃帣 Episodio 25. C贸mo utiliza Hacienda el Big Data

En el episodio de hoy de Un podcast ninja sobre Big Data vamos a hablar de impuestos y de c贸mo utiliza Hacienda los datos de los que dispone, de d贸nde los saca y, en definitiva, c贸mo persigue mejor el fraude gracias al Big Data.

El origen de los impuestos

Pero empecemos por el principio鈥 en sus inicios la recaudaci贸n de tributos consist铆a en unos amables inspectores recorriendo las tierras e inspeccionando la cosecha de cada agricultor. En funci贸n de lo que ve铆an decid铆an llevarse una parte para poder costear los gastos del Estado (gastos de guerra, construir nav铆os, esas cosas鈥)

Algunos campesinos que ve铆an la guerra y los nav铆os como algo lejano que ni les iba ni les ven铆a y  les hab铆a costado mucho esfuerzo sacar adelante su cosecha a veces, escond铆an parte de lo que hab铆an conseguido. Cuando ven铆an los inspectores les dec铆an que ese a帽o les hab铆a ido fatal para que  as铆 los inspectores se llevaran menos grano.

Los inspectores, que tampoco eran tontos, ten铆an que buscar lo que faltaba de la cosecha  para llevarse lo que realmente le correspond铆a tributar al agricultor.

Unos cuantos cientos de a帽os m谩s tarde鈥

Cambiamos grano por dinero y la situaci贸n es m谩s o menos similar. 

M谩s gente hace que no haya suficientes inspectores para visitar a todo el mundo para mirar que hay debajo del colch贸n.

As铆 que las declaraciones se hacen en papel.

Los ciudadanos las presentan cuando sea que tienen que presentar cada impuesto  y los inspectores pasan manualmente los datos de las declaraciones de impuestos en papel a un repositorio.

Es mejor que tener que ir a visitar a casa a todo el mundo pero bueno, a煤n se puede mejorar un poco m谩s.

En ese caso los datos eran estancos.

Lo que recaudaba el grupo que se encargaba de las empresas no lo sab铆a el grupo que se encargaba de impuestos de renta de las personas o de los impuestos de veh铆culos o del impuesto que fuera.

Era muy dif铆cil saber si todo el mundo estaba cumpliendo o no sus obligaciones tributarias y los controles de inspecci贸n eran m谩s aleatorios.

La cuesti贸n es que era complicado detectar el fraude cuando los datos eran estancos.

El proyecto Z煤jar

Ser铆a mucho m谩s eficiente si los datos de cada impuesto y cada contribuyente estuvieran disponibles para el resto de los grupos de la Administraci贸n Tributaria.

As铆 se podr铆a tener una visi贸n m谩s de conjunto y se podr铆a hacer un an谩lisis m谩s descriptivo del estado de los impuestos por parte de Hacienda.

Y as铆, hace m谩s de 10 a帽os naci贸 el proyecto Z煤jar

Si record谩is del episodio de la semana pasada en el que habl谩bamos sobre ingenier铆a de datos dec铆amso que los datos pod铆an guardarse en almacenes o en lagos de datos dependiendo de si hab铆an sido transformados y estaban listos para usarse o eran los datos en crudo sin m谩s.

El Z煤jar es un pantano situado en la provincia de Badajoz y adem谩s es el lago de datos de la administraci贸n tributaria espa帽ola.

Z煤jar es una especie de almac茅n de almacenes de datos, estos almacenes m谩s peque帽os se conocen internamente como z煤jares.

Est谩 el z煤jar de inmuebles, el de contribuyentes, el z煤jar de deudas, uno para facturas declaradas, un z煤jar de ITVs, hay un z煤jar para lo que sea que os imagin茅is.

Hay m谩s de mil y pico z煤jares.

Z煤jar, el motor anal铆tico de la Administraci贸n, en n煤meros

Para que os hag谩is una idea de los vol煤menes de datos que se manejan en Z煤jar... Hace 2 a帽os, en 2020, ya hab铆a m谩s de 16000 tablas, algunas con m谩s de 18000 columnas y 9000 millones de registros.

Datos de 10 ejercicios, con m谩s de 50 millones de contribuyentes y 300 millones de relaciones.

Y datos que no paran de crecer.

Si record谩is tambi茅n del episodio de la semana pasada cuando habl谩bamos de la carga de datos, existen dos tipos y Z煤jar soporta los dos.

En Z煤jar se soportan tanto cargas online que suceden 24/7 como cargas en bloque de otros almacenes de datos, unas 29000 cargas mensuales que modifican o a帽aden un promedio de 200000 millones de registros al mes, y que se programan por las noches y fines de semana.

Adem谩s Z煤jar incorpora un motor de an谩lisis que permite a los miembros de la administraci贸n con los permisos adecuados hacer consultas al almac茅n de datos, cruzar resultados, etc鈥

驴De d贸nde saca la Administraci贸n Tributaria los datos?

Pues principalmente de los propios contribuyentes cuando presentan sus declaraciones de impuestos.

驴Eso que dec铆amos antes de que se presentaban las declaraciones de impuestos en papel y luego una persona lo pasaba a mano?

Pues ahora al hacerse de manera telem谩tica, la ingesta de datos se realiza de forma autom谩tica.

Adem谩s los bancos cada a帽o le giran el saldo en cuenta que tenemos al final del ejercicio, con informaci贸n sobre inversiones o cualquier otro producto financiero que tengamos. 

La ley tambi茅n dice que el banco debe informar a la Agencia Tributaria cuando se producen cierto tipo de operaciones.

  • Si usamos billetes de 500鈧
  • Operaciones de m谩s de 10000鈧
  • Pagos y cobros de m谩s de 3000 euros cuando se hagan en met谩lico.

Adem谩s las empresas tambi茅n le giran los datos sobre las n贸minas de sus trabajadores.

Y no solo eso sino que hay intercambios de datos entre la Administraci贸n Tributaria y otras administraciones p煤blicas como la Secretar铆a General de universidades, la Seguridad Social, notarios e incluso se producen intercambios autom谩ticos de datos internacionalmente.

Hacienda tambi茅n obtiene datos regularmente de portales como AirBnB o booking. Se env铆an peri贸dicamente, la identificaci贸n del titular de la vivienda y del anfitri贸n, de los hu茅spedes, de la propia vivienda que se anuncia en el portal y obviamente, el importe percibido por el anfitri贸n.

Y para tener a煤n un visi贸n m谩s completa la Administraci贸n Tributaria puso en marcha el Proyecto RIFA, que viene de Recolecci贸n de Informaci贸n de Fuentes Abiertas a partir del cual es capaz de extraer datos directamente de Internet.

Todo eso va a Z煤jar.

Casos de uso del Big data

 驴Y qu茅 consigue la Administraci贸n Tributaria con todos estos datos?

Pues para empezar, con exacta puntualidad y precisi贸n, nos facilita todos los a帽os, nuestro borrador de renta con los datos sobre todas nuestras cuentas bancarias.

Adem谩s de ser m谩s c贸modo, desde Hacienda han comprobado que un contribuyente es menos propenso a cometer errores u omisiones en su declaraci贸n cuando ya ve que la Agencia Tributaria dispone de todos o casi todos los datos.

Pero adem谩s, tiene en marcha varios proyectos para la detecci贸n del fraude como el Proyecto Nidel y el proyecto Hermes entre otros.

Proyecto Nidel

Nidel es una herramienta que utiliza an谩lisis de grafos para encontrar estructuras y relaciones indirectas en redes de millones de nodos. Mediante este an谩lisis de grafos, se puede calcular la riqueza de individuos a partir de sus participaciones en empresas, por ejemplo. 

Se usa especialmente en casos de personas que tienen asuntos pendientes con Hacienda que para no pagar dicen que no tienen nada y que est谩n arruinados aunque en realidad disponen de bienes pero a nombre de otros.

Proyecto Hermes

Por otro lado, Hermes utiliza los datos de Z煤jar para obtener modelos predictivos de riesgos de los contribuyentes. La idea es clasificar y perfilar a los contribuyentes y detectar anomal铆as en los datos que permitan mejorar la detecci贸n de fraude por parte de la Administraci贸n.

Estos modelos predictivos de riesgo, modelos de clasificaci贸n y perfilado de los contribuyentes y detecci贸n de anomal铆as es d贸nde podr铆a estar aplic谩ndose el Machine Learning y la Inteligencia Artificial.

Estos modelos predictivos tienen limitaciones y varias implicaciones a tener en cuenta, especialmente para el caso de detecci贸n de fraude.

Por un lado, hay que darle mucha importancia al sesgo que puede haber en los datos de entrenamiento. Este sesgo se introduce al entrenar al sistema con casos de fraudes conocidos por lo que no podr铆a detectar tipos de fraude que a煤n no se han inventado o que no se conocen.

Al final no sabemos lo que no sabemos.

Los defraudadores son gente muy imaginativa y la variaci贸n temporal en el comportamiento del contribuyente es elevada.

Puede ser que para cuando quiera utilizar un modelo, pues ya la gente no se comporta como cuando se comportaba cuando se recolectaron los datos sobre los que se entren贸.

Adem谩s es importante medir el impacto de una predicci贸n incorrecta o sesgada por parte del sistema.

Por ejemplo, imaginad que el sistema predice que un contribuyente est谩 en situaci贸n de fraude y se embarga su cuenta sin m谩s comprobaciones. En el caso que predicci贸n fuera err贸nea tendr铆a un gran riesgo para el contribuyente.

Espero que os guste el episodio 

Si es as铆, no olvid茅is dejar un 芦Me gusta禄 y alg煤n comentario al episodio en Ivoox o una valoraci贸n de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuch茅is el podcast. 

Recordad que si ten茅is cualquier duda o pregunta pod茅is contactar conmigo a trav茅s del formulario de contacto o podemos seguir la conversaci贸n en Twitter.

Muchas gracias por estar ah铆 y os espero en el pr贸ximo episodio de Un Podcast Ninja sobre Big Data.

馃攷 Pliego de prescripciones t茅cnicas en los 谩mbitos del Sistema de An谩lisis de la Informaci贸n, Big Data, Miner铆a de Datos y Tecnolog铆as del Lenguaje

馃攷 Memoria Tributaria 2020

Bolet铆n Ninja

Suscr铆bete a la newsletter y recibe la gu铆a ninja del Big Data y la Inteligencia Artificial.

Gu铆a ninja del Big Data
Copyright 漏 2023  路 Datos 馃シ 路 Todos los derechos reservados