Claves para realizar un proyecto de datos con éxito

Otra perspectiva más objetiva y real

De manera tradicional, la toma de decisiones en el mundo empresarial se ha basado en el conocimiento sobre el negocio adquirido a través de la experiencia y la percepción humana. La ciencia de los datos, que engloba todas las tecnologías que permiten analizar los datos para extraer conclusiones sobre ellos, ofrece una perspectiva más objetiva y certera de la realidad caótica que a veces representan los datos.

Si combinamos la intervención del experto en el negocio con analíticas, modelos predictivos y visualizaciones finales tendremos una herramienta muy potente de transformación digital para hacer crecer nuestro negocio.

Ciencia de Datos

  • La regla inversa del 80-20


    Al proponer un proyecto de datos, existe la creencia de que son complejos, con algoritmos inteligentes complicados implícitos, y donde siempre están involucrados grandes cantidades de datos. En la gran mayoría de los casos, no es así.

    El principio de Pareto, también conocido como la regla del 80-20, describe el fenómeno estadístico por el que, en cualquier población que contribuye a un efecto común, es una proporción pequeña la que contribuye a la mayor parte del efecto. En este tipo de proyectos, la regla se invierte, siendo el 80% de dedicación del proyecto lo más importante; la obtención, el tratamiento y la carga de los datos.

  • Sistemas de información del proyecto de datos

    Existen diversas formas de obtener los datos, desde los propios sistemas de información de la entidad, desde fuentes de datos externas, o ambas.

    Los datos son un activo muy importante de la empresa, y estos deben estar a buen recaudo para mejorar estrategias, ingresos, conocer mejor a los clientes, etc. En definitiva, para tener un mayor y mejor conocimiento del negocio y conseguir los objetivos propuestos.

    Para poder almacenar datos y/o acceder a ellos, es necesario tener un sistema de información adecuado para cada empresa, el cual debe ser proyectado y escalado correctamente para cada caso de uso. Si nuestra entidad no dispone de este sistema, quizás sea un buen momento de ponernos en manos de profesionales para su diseño e implantación puesto que, sin datos, no habrá proyecto.

  • Conjunto de datos - Big Data


    A la hora de poner en marcha un proyecto de datos, se debe preguntar qué datos se necesitan y dónde se pueden encontrar. Dependiendo del proyecto propuesto, el tamaño del conjunto de los datos necesario puede ser masivo o no. Si lo que se desea es realizar un análisis de sentimientos a nivel mundial de las redes sociales, lo adecuado será usar APIs para el acceso  a los datos masivos de cada red social, así como técnicas distribuidas de tratamiento de datos como Apache Spark o Hadoop para tratar estos datos masivos. En cambio, si lo que se persigue es realizar un perfilado de clientes de una base de datos de una empresa, los registros ya tratados de ella se utilizarían como datos de entrada para un algoritmo de aprendizaje no supervisado, también llamado clustering, el cual ayudaría a agrupar a clientes semejantes y poder extraer características de cada agrupación. En el primer ejemplo, se podría estar hablando de millones de registros, mientras que, en el segundo ejemplo, de miles.

    Cada proyecto requiere un conjunto de datos de entrada concreto, con dimensiones específicas y acorde a los objetivos marcados.

Tipos de modelado y análisis

Al realizar un modelo predictivo para un caso de uso empresarial se pueden encontrar diversos tipos de análisis y modelados:

Análisis descriptivo

Para conocer nuestro conjunto de datos

Análisis inferencial

Obtener respuestas a través de una muestra representativa.

Análisis predictivo

Aprendizaje supervizado y no supervizado.

Auditoría de los modelos

La aparición del COVID19 ha evidenciado en mayor medida cómo el contexto que nos rodea puede cambiar rápidamente. Los modelos predictivos son modelos que han aprendido de datos históricos que representan una realidad concreta, y si esta cambia, probablemente estos modelos se desvíen y no nos den una respuesta adecuada. Por ello, es necesario auditar los modelos periódicamente o en situaciones anómalas, para comprobar que las bondades del modelo predictivo se conservan y no tienen comportamientos atípicos.

Un modelo de datos que ya no responde correctamente debe ser reemplazado por otro modelo entrenado con datos de un intervalo de tiempo y variables adecuados para que la precisión del modelo sea óptima.

Procesos de automatización

La combinación de los sistemas de información de la entidad, con los modelos predictivos diseñados para cada caso de uso y la automatización de determinados procesos implicados en el workflow del proyecto de datos dotarán al mismo de una gran autonomía y de un mayor alcance.

Las tareas que se pueden automatizar podrían ser procesos de extracción, transformación y carga de los datos (procesos ETL), grabación de las predicciones de los modelos utilizados para visualizaciones históricas, o fragmentos de códigos que realizan tareas específicas, entre otros.

Igual de importante es automatizar dichos procesos
como supervisar que todo está funcionando correctamente. Para ello, se pueden crear cuadros de mandos y sistemas de alertas para advertirnos de que dichos procesos pueden estar funcionando
indebidamente o fallando.

Garbage in, garbage out

Al igual que en otros campos de la ingeniería como el procesamiento de señales, si los datos usados para entrenar un modelo no tienen la suficiente calidad, estos no nos ayudarán a responder a nuestras preguntas debidamente.

Los datos de entrada del modelo deben ser previamente explorados para comprobar que las variables contienen información de interés y que están lo más completas posible. A continuación, dicha información debe ser tratada para homogeneizarla, eliminar duplicidades y posibles incongruencias, etc. Como se comenta al comienzo del artículo, el core del proyecto siempre serán los datos.

Ética de los datos

La ética en el uso del Big Data y la Inteligencia Artificial está siendo cuestionada.

Son conocidos los casos de grandes empresas que han hecho uso de datos sobre comportamientos de los usuarios, o sobre preferencias de índole política o privada sin el consentimiento de estos, para hacer estudios que sobrepasan normativas como la LOPD o la RGPD. Si queremos mantener la reputación de nuestra empresa debemos ser transparentes sobre el uso de los datos implicados en los proyectos de datos y conformar los datos y los algoritmos sin ningún tipo de discriminación.

La ética y el gobierno del dato debe estar presente desde la captación y gestión de la información, y dotarlos de privacidad y límites en su uso.

Actualmente ya se pueden encontrar bibliografías y guías de código ético para el uso del Big Data y la Inteligencia Artificial como las elaboradas por el Colegio Oficial de Ingenieros de Telecomunicación.

Data Literacy: alfabetización del dato

Cada vez más las empresas descubren la importancia de custodiar los datos y generar valor añadido a partir de ellos. En la transformación digital de una entidad no sólo será importante detectar aquellos procesos que se puedan digitalizar o automatizar, sino también, el flujo de datos que los recorren y qué información es susceptible de ser almacenada para generar modelos de predicción a través de ellos.

La cultura empresarial sobre el dato trata de que todos los empleados conozcan la relevancia de gestionar el dato durante todo su ciclo de vida y poder usarlo para un propósito particular.

 

Metodologías ágiles en ciencia de datos

Es importante establecer una hoja de ruta al principio de cada proyecto y proponer un producto mínimo viable a corto o medio plazo. El Big Data o la Inteligencia Artificial son tecnologías incipientes en el ámbito empresarial y en ocasiones el cliente necesita un resultado tangible, con calidad y valor en un período de tiempo reducido para empezar a creer en los beneficios que estas tecnologías brindan. Para ello, se pueden proponer metodologías adaptativas adecuadas a la empresa y el proyecto, para poder entregar un producto funcional en poco

 

Líneas de financiación para proyectos de datos e innovación

La financiación pública y privada puede ser primordial para poner en marcha el proyecto de datos propuesto si no disponemos de los fondos necesarios. Existen organismos y expertos para asesorarnos y que nuestros proyectos puedan hacerse realidad. Convocatorias como EATIC, NEOTEC, ayudas para Pymes, o el fondo masivo Next Generation de recuperación de la UE gestionado por el Gobierno Central pueden servirnos de lanzadera. Por citar un ejemplo, el Gobierno de España ha manifestado la importancia de introducir en el tejido productivo y empresarial, tecnologías básicas para la ciencia de los datos como las ya nombradas Big Data e Inteligencia Artificial a través de los fondos Next Generation. En Canarias, existe servicios gratuitos de asesoramiento como el que ofrece el ITC y la ACIISI donde técnicos RedCIDE pueden ayudarnos en la búsqueda de fondos.

Ingenieros de Telecomunicaciones y los servicios basados en datos

La información siempre está presente en la profesión del Ingeniero de Telecomunicaciones; en el campo de las señales, de las redes de comunicación, o el campo de la programación. Unido a ello, se prevé que en Europa se quedarán cerca de 500.000 puestos de empleo al año sin cubrir, y muchos de ellos, requieren competencias en tecnologías directamente relacionadas con los datos. Si deseas explorar un campo nuevo o aún no sabes a qué dedicarte, quizás sea momento de formarte en habilidades analíticas avanzadas y probar con la ciencia de los datos..

BLOCKCHAIN

  • Rompiendo mitos

    Cuando se habla de Blockchain, tendemos a pensar en Bitcoin. Es cierto que esta tecnología se dio a conocer con las criptomonedas, pero sus características ponen en alza el valor de los datos no sólo para el mundo financiero. Una red Blockchain es un registro único, consensuado y distribuido en varios nodos, donde cada bloque tiene un lugar específico e inamovible dentro de la cadena.

  • Identidad Digital Soberana

    Un caso de uso basado en Blockchain y que pronto será realidad para todos los ciudadanos de la unión europea es la identidad digital europea, donde el ciudadano podrá identificarse de forma segura en diferentes servicios públicos y privados de la UE y podrá compartir la información que desee, pudiendo de esta manera controlar qué datos se utilizan y cómo. Esto será posible gracias al Reglamento EIDAS que permite utilizar servicios de identificación con efectos jurídicos en toda la UE.

BLOCKCHAIN

  • Dispositivos IoT y Smart Devices

    Para poder hablar de transformación digital, también debemos hablar del Internet de las Cosas, o también llamado IoT, un conjunto de dispositivos conectados a través de una red, donde éstos interactúan para cumplir un reto marcado. Dentro del IoT exiSten pilares tecnológicos que abren grandes posibilidades para los ingenieros de telecomunicaciones como son el diseño de dispositivos y hardware, las redes de comunicación, la gestión de los datos masivos que generan los dispositivos IoT, la ciberseguridad de estos datos, o la gestión de este tipo de proyectos, que es particular. Con más de 7000 millones de dispositivos de IoT conectados en la actualidad, los expertos prevén que este número aumentará hasta llegar a 10.000 millones en 2020 y a 22.000 millones en 2025. Es por ello que la especialización de técnicos en IoT está en auge y continuo crecimiento..

  • Particularidades del IoT

    A la hora de comenzar un proyecto IoT, se debe tener en cuenta cuestiones muy importantes para que el proyecto no fracase:

    Consumo energético de los sensores y dispositivos implicados. En IoT emerge el concepto de energy harvesting, que pretende facilitar la autonomía energética de los dispositivos y sensores a través de fuentes de energía renovables para que el sistema sea sostenible y duradero. 

    Elección de la mejor red de comunicaciones para dotar de una infraestructura que responda a las necesidades del proyecto y brinde calidad de servicio.

    Debemos disponer de una plataforma de gestión de los dispositivos, así como de la gestión de los datos que se generan, si no tenemos el control de ellos, el proyecto se vendrá abajo.

    Un proyecto IoT será exitoso cuando sea capaz de crear una barrera inquebrantabble hacia los datos. La privacidad de los datos y que ningún intruso sea capaz de tomar el control de los dispositivos y de los datos a través de la ciberdelincuencia hara que el producto IoT sea robusto y confiable.

BLOCKCHAIN

  • Redes de comunicación 5G

    Gracias a esta tecnología que mejora la velocidad, la latencia y la capacidad de la red móvil, cada vez más dispositivos podrán acceder a ella para realizar mayor computación en la nube, o transmitir información de manera simultánea entre dispositivos o hacia los grandes centros de datos que procesa toda la información. Esta tecnología es fundamental para el despegue del IoT y para las Smart Cities.

  • Crisis de los microchips

    La actual falta de semiconductores a nivel mundial es una crisis que afecta de lleno a las tecnologías IoT. Estos no sólo están presentes en los sensores sino prácticamente en cualquier dispositivo electrónico, lo que hace que el acceso a ellos sea más difícil aún. Actualmente existen iniciativas de recuperación para mejorar los cuellos de botella en la producción de los microchips y que la aplicación del IoT en su totalidad sea posible.

CONCLUSIÓN

Los datos son elementos inherentes a nuestra vida cotidiana, siendo cada uno de nosotros proveedores de esos datos. La creación de un código deontológico claro y de obligado cumplimiento para aplicar en cualquier proyecto de datos es fundamental para que el propietario de ellos tenga su control y sepa en cada momento quién usó sus datos y para qué fin a través de directivas éticas y legislativas.

El Big Data, la Inteligencia Artificial, el Blockchain o el Internet de las Cosas son instrumentos con los que conseguir grandes avances, aunque estos siempre serán atribuibles a las personas y no a los algoritmos.

En conclusión, la fusión del conocimiento humano con las tecnologías habilitadoras digitales y la importancia de los datos es un actor clave en los procesos de transformación digital y en la consolidación de nuevos modelos económicos y sociales de progreso y desarrollo.