La corrupción en América Latina y cómo combatirla: estrategias tecnológicas para luchar contra la corrupción

Esta es la última entrega de una serie de tres columnas sobre las corrupción en nuestro países. 

Este espacio es posible gracias a

Patrocinio

Mucho se habla del uso de las tecnologías de información como herramientas fiables en la lucha contra la corrupción. No obstante es posible que se esté haciendo demasiado énfasis en la funcionalidad de los productos y no tanto en las causas, en lo que hay que direccionar, en lo que hay que atacar.

Por eso los dos artículos anteriores de esta serie son tan importantes. Hay que saber cuáles son los determinantes de la corrupción que podemos apoyar con tecnología y cuáles no. Por ejemplo, la decisión en torno al  determinante de la participación de las mujeres en la administración pública es una medida eminentemente política y la misma debe buscar incrementar el número de mujeres en todos los niveles de la burocracia estatal.

Caso contrario es el que atañe al factor determinante que resultó ser el más relevante de todos: la capacidad regulatoria, la cual no solamente tiene que ver con leyes y reglamentaciones que busquen combatir la corrupción sino con los instrumentos para que se cumplan, para que los corruptos paguen realmente por sus actos. Los instrumentos deben ser de derecho procesal penal, pero la tecnología mucho puede hacer para apoyar todo esfuerzo en recabar pruebas y evidencias, en identificar patrones y tendencias y en lograr que los criminales sean capturados.

Igualmente, en el área de educación, para mejorar el determinante de la Calidad de la Burocracia, la tecnología puede aportar mucho. Las grandes multinacionales tienen incorporados procesos educativos para sus empleados, apoyados en tecnologías de información, en los que instruyen a los mismos no solo en temas del negocio sino también en las regulaciones relacionadas con los actos de corrupción (fraudes, sobornos, peculado, etc).  La mayoría de las veces esta capacitación se hace usando programas que, además de enseñar, se encargan de hacer exámenes que deben ser aprobados para que el empleado pueda ser certificado y seguir con su trabajo.

La misma tecnología podría ser utilizada en las entidades del Estado, la certificación podría ser condición de empleo y además debería renovarse cada año. El sólo hecho de tener que certificarse favorecería la concientización de muchos servidores públicos mientras que a muchos otros podría recordarles que respecto a la corrupción están frente a un riesgo penal latente.

Finalmente, aunque no se menciona de forma explícita en el estudio de Seldadyo y Haan que cité en el primer artículo de esta serie, facilitar el acceso transparente a la información del Estado es de suprema importancia.

En las reformas hechas en Uruguay la transparencia y el acceso a la información han jugado un papel preponderante en la reducción de la corrupción en ese país. Entre otras acciones crearon la Junta de Transparencia y Ética Pública (Jutep) que se conformó para “conducir a escala nacional el proceso de difusión e implementación de medidas destinadas a fortalecer la transparencia de la gestión del Estado...” indica Luis Yarzábal quien fuera vicepresidente de la Jutep.

Otro ejemplo concreto es la iniciativa pública que ha surgido en la ciudad de Nueva York relacionada con el acceso transparente a la información, la NYC OpenData, que sigue la filosofía de #OpenData y ha sido impulsada por leyes locales de los alcaldes Bloomberg y De Blasio. La medida busca que los datos “puedan ser accedidos y usados libremente, reutilizados y redistribuidos por cualquier persona”. Accediendo al Portal https://opendata.cityofnewyork.us/ los ciudadanos pueden conocer la información referente a los servicios de educación, salud, transporte, etc., así como a datos sobre presupuesto, salarios, licitaciones, contratos, ejecución presupuestal, proyectos en ejecución e informes contables, detallados por categorías y entidad administrativa.  

Para mejorar los niveles de transparencia en la administración pública es muy importante que los gobiernos de una ciudad, una municipalidad, un estado, una provincia o un país cuenten con portales que sigan los principios de Open Data o Datos Abiertos. Es más, los activistas anticorrupción deberían impulsar dicha iniciativa en sus países, así la ciudadanía sería un actor más activo en el control a la corrupción.

 

¿Con qué herramientas se cuenta?

Pero respecto a los actos de corrupción como tal ¿con qué herramientas se cuenta? Aquí es donde la tecnología detrás del Big Data Analytics, y las Redes Neuronales Convolucionales (RNC) puede jugar un papel interesante.

Pero antes de hablar de RNC o la analítica de los Big Data (Datos Masivos) tratemos de definir el concepto de #BigData como tal, porque, aunque hay muchas personas que lo entienden o dominan, muchas otras no lo comprenden a cabalidad.

Lo primero que hay que decir es que no es una tecnología nueva, tiene por lo menos 10 años y está relacionada con la gran cantidad de información que transita por Internet o redes privadas y que es guardada en un número cada vez mayor de sistemas de almacenamiento masivo. Como lo dice la definición más comúnmente aceptada “Big Data comprende todo el conjunto de tecnologías y procesos que  permiten capturar y almacenar cantidades masivas de datos de diversos orígenes y tipologías para luego procesarlos de manera inteligente en beneficio de las empresas, el estado y la sociedad en general”.

La diferencia de los Datos Masivos con los datos que comúnmente se conocen en Tecnología de Información es que estos últimos típicamente son alfanuméricos, tienen una estructura determinada y están contenidos en tablas con entidades relacionadas entre sí. Adicionalmente este tipo de tecnología tiene un lenguaje y una estructura particulares para programar y gestionar los datos. Este lenguaje es conocido como Structured Query Language (SQL) y es usado por todas las Bases de Datos Estructuradas y Relacionales.

Los Big Data por el contrario son datos que pueden ser o no estructurados, por lo tanto no tienen necesariamente que tener una organización determinada. Es decir los Big Data son NoSQL, que significa Not only SQL (no sólo SQL). Usan bases de datos que no necesariamente cumplen con el esquema entidad-relación, proveen un  almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales. Como veremos más adelante los Big Data también pueden ser almacenados en sistemas de archivos distribuidos.

Los Datos Masivos tienen 5 características fundamentales que los definen, las cuales se conocen como las 5 ‘Vs’ de Big Data. A saber:

1) Volumen: Estamos hablando de datos masivos, de grandes cantidades de datos que han crecido exponencialmente apalancados por tecnologías como el #IoT, las Redes Sociales o el Streaming.

2) Variedad: Los Big Data provienen de fuentes muy variadas: De quienes enviamos emails, mensajes instantáneos de texto o voz, publicamos en Facebook, tuiteamos, subimos archivos, fotos y videos, hacemos compras en línea, etc.; de las transacciones bancarias, las facturaciones, las bitácoras o las métricas operacionales; del marketing electrónico en donde los usuarios se convierten en creadores de contenido; de los dispositivos que hacen parte del Internet de las Cosas (IoT); de los sistemas biométricos, detectores de infrarrojo, etcétera.

3) Velocidad: Con la cantidad de datos que se generan por segundo, el procesamiento de estos debe hacerse a alta velocidad e incluso en tiempo real. Los Big Data requieren velocidad para acceder a los datos pero también velocidad para su visualización.

4) Veracidad:  Es muy importante la integridad de los datos si se desea que éstos tengan un valor a la hora de usarlos como información útil. La fiabilidad de la información que se obtiene eliminando cualquier inexactitud o incertidumbre en la recopilación de los datos es de vital importancia.

5) Valor: ¿Pero de qué sirven los datos si estos no se pueden convertir en información y ésta en conocimiento? ¿Si no pueden ofrecer valor? El propósito de cualquier estrategia de Big Data debe ser que los datos puedan ser aprovechados. Así se pueden determinar patrones de comportamiento para la toma de decisiones y para efectuar análisis predictivos y comprender, por ejemplo, el comportamiento de consumo en los almacenes de cadena o entender mejor a los clientes bancarios y, ¿por qué no?, ¡para entender más la conducta y hábitos de los corruptos!

Debemos pensar que los Datos Masivos, además de datos de la gente común, también contienen valiosa información sobre las actividades de los corruptos. Sólo tenemos que entrar a analizarla, ¿cómo? Con las herramientas de analítica de los Big Data. La Analítica de los Big Data aplicada a la lucha contra la corrupción es el proceso de recopilación de grandes cantidades de datos estructurados o no estructurados, la segregación y el análisis de estos descubriendo patrones, correlaciones y otras perspectivas útiles de los mismos que revelen evidencias de actividad criminal por parte de los corruptos. También ayuda a determinar qué datos son relevantes y cuáles pueden ser analizados para llevar a cabo una mejor toma de decisiones.

Es interesante comprender, por otro lado, que si las entidades públicas de nuestros países se acogen a las iniciativas de Open Data y Open Government cualquier ciudadano, organización o las mismas entidades de control del Estado pueden usar herramientas analíticas para llegar a conclusiones valiosas usando los datos puestos a disposición del público por los entes oficiales.

Como lo indica el Global Anticorruption Blog “la Big Data Analytics puede, por ejemplo, descubrir patrones de fraude o sobornos en la contratación pública al combinar los datos de los procesos de contratación con los estados financieros de las firmas licitantes, con los datos sobre los socios de las mismas, con los datos de declaraciones de impuestos de los servidores públicos involucrados y de sus familiares, junto a las quejas que existan o hayan existido de parte de otras firmas licitantes contra las firmas con las que compiten”.

Debido a que los Datos Masivos pueden gestionar datos estructurados y no estructurados también se podría analizar y buscar patrones y correlaciones de las actividades de los corruptos y sus socios en las redes sociales. Pero la información no estructurada igualmente se encuentra en correos electrónicos, en la voz, las imágenes o los videos que fluyen por Internet. Allí se puede encontrar información muy útil para que los organismos estatales de investigación puedan relacionar a individuos o empresas con actos de corrupción. ¿Pero cómo se puede llegar a analizar grandes cantidades de información en forma de voz o imágenes captadas o transmitidas por doquier?

Para empezar hay que decir que la tecnología de Big Data reciente abarca todo un ecosistema en el que sus diferentes componentes cumplen funciones específicas. Entraré a mencionar sólo aquellos de código abierto para no crear suspicacias en torno a las ofertas comerciales existentes.

El núcleo de ese ecosistema es el sistema de archivos distribuido en el que fue pionero Hadoop con su Hadoop Distributed File System (HDFS). Hoy en día Hadoop y todas sus herramientas hacen parte de Apache, una organización especializada en programas de código abierto que son usados por muchas personas en el mundo. Una enorme ventaja de HDFS es que, puede almacenar todo tipo de datos, no solamente los datos estructurados. Otra ventaja es que, al ser un sistema distribuido, existe un buen nivel de redundancia para los datos. Hadoop cuenta también con MapReduce, un programa para el procesamiento y almacenamiento de datos en  batch (por lotes), el cual genera data sets almacenados en un modelo algorítmico paralelo y distribuido que se ejecuta en un clúster de servidores para mayor eficiencia y rapidez de procesamiento de los datos.

Para realizar las funciones analíticas los Big Data usan una capa especializada (Analytics Layer) que cuenta con módulos de visualización, de análisis estadísticos avanzados, de analítica predictiva e incluso de #MachineLearning (programas que aprenden por sí mismos). En el caso de la analítica requerida para datos de voz o video, que por lo general vienen en Streaming (transmisión por secuencias continuas), el ecosistema debe enriquecerse con módulos adicionales, como por ejemplo el módulo especializado en la ingesta de los dados (data ingestion), que no es otra cosa que la recepción a altas velocidades de los mismos. Un producto de código abierto que ha tenido mucha acogida y que es muy eficiente en esta función es el Apache Kafka.  

Kafka puede gestionar entradas de distintos tipos; además de los datos de Streaming también otros como registros transaccionales, datos de seguimiento de usuarios, métricas operacionales, etc., distribuyéndolos de manera eficiente a los diferentes subsistemas para su procesamiento. En el caso de los datos de voz o video estos son entregados a un sistema especializado como el Spark Streaming el cual se encarga de hacer búsquedas y detectar objetos, hacer el reconocimiento y la clasificación de estos, extraer las características relevantes y efectuar la respectiva indexación.

Pero para hacer la diferenciación entre sonidos o imágenes de características similares se requiere incorporar a la arquitectura un sistema de Deep Learning (enseñanza profunda). Estos sistemas son típicamente usados en reconocimiento de voz, en procesamiento de Lenguaje Natural (que permite que personas y máquinas se puedan comunicar naturalmente), o en programas de traducción, entre otros. El #DeepLearning más avanzado se basa en Redes Neuronales Artificiales (RNA) las cuales son inspiradas en las redes neuronales biológicas. Las RNA típicamente hacen uso de un número muy grande de muestras de objetos, de tal forma que con base en las características de estas muestras “aprenden” a reconocer objetos  similares.

Pero para las situaciones en que se requiera identificar y analizar imágenes visuales provenientes de videos con una mayor exactitud se utilizan las Redes Neuronales Convolucionales (CNN de sus siglas en inglés). El componente ‘convolucional’ se refiere a la convolución matemática,  operación que se aplica en el análisis de funciones donde una operación aplicada a dos funciones da como resultado una tercera función que muestra cómo la forma (es decir la función graficada) de una de las funciones originales es modificada por la otra función.

Las CNN tienen una capa de entrada y una capa de salida. Entre estas dos hay capas ocultas de diferente tipo dentro de las cuáles se encuentran las capas convolucionales que actúan como filtros basándose en determinados parámetros y que al igual que el sistema neuronal de los mamíferos es jerárquico. A diferencia de las RNA tradicionales, las capas de las CNN son tridimensionales y van perfeccionando la interpretación de la imagen de entrada, identificando características, hasta “aprender” lo suficiente como para determinar de qué objeto se trata.  

Después vienen otras capas que se encargan de reducir las dimensiones de las matrices 3D hasta dar como resultado en la salida un vector 1D que contiene información sobre las probabilidades de que el objeto original sea un animal u otro, una persona u otra. Luego de la clasificación y reconocimiento de imágenes pasamos al componente analítico de la arquitectura. Pero mirémoslo, a manera de cierre, desde la óptica de la lucha contra la corrupción con un ejemplo hipotético.

Si un funcionario público sospechoso es captado en cámara con un desconocido testaferro de una empresa, que piensa hacerse a un gran contrato, las autoridades del estado, mediante la tecnología de CNN y la información del banco de imágenes de la entidad de registro de identidades, pueden identificar al desconocido y luego, haciendo uso de #BigDataAnalytics, cruzar esta información con aquella proveniente de otras fuentes de datos y así llegar a interesantes conclusiones sobre sus transacciones financieras, la compra de inmuebles, su  desplazamiento aéreo, los mensajes intercambiados por email o mensajería instantánea, la información de sus redes sociales, la información de edificios públicos que haya visitado, los cambios patrimoniales reflejados en su declaración de renta, etc. y de esta forma podrán llegar a obtener y documentar información valiosa, correlacionarla entre sí, encontrar patrones, predecir comportamientos futuros, hacer seguimientos y recoger evidencias para un eventual proceso judicial.

Para finalizar en el gráfico de abajo se puede ver una arquitectura genérica que incluye parte del ecosistema de Big Data del que hablamos y sus distintos componentes, todo lo cual puede encontrarse en la nube, debido a la tendencia creciente de usar #CloudServices.  

La corrupción en América Latina y cómo combatirla: estrategias tecnológicas para luchar contra la corrupción_7
Fuente de información: kisspng.com

Imágen de portada tomada de aquí

      Periodista prueba

      Powered by